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本 书 是 一 本 优秀 的 数据 挖掘 教材 ,全面 而 系统 地 介绍 了 数据 挖掘 的 商业 环境 、 数 据 挖 气 技 
术 及 其 在 商业 环境 中 的 应 用 。 

全 书 共 18 章 , 内 容 涵 盖 核 心 的 数据 挖掘 技术 , 包括 : 决策 树 、 神 经 网 络 、 协 同 过 滤 、 关 联 
规则 、 链 接 分 析 、 聚 类 和 生存 分 析 等 。 此 外 , 还 提供 了 数据 挖掘 最 佳 实践 的 概观 、 数 据 挖 掘 的 
最 新 进展 和 一 些 极 具 挑战 性 的 研究 课题 ， 极 具 技 术 深 度 与 广度 。 通 过 学 习 本 书 ,读者 不 仅 可 以 
精通 数据 挖掘 的 整体 结构 和 核心 技术 , 还 可 以 领略 数据 挖掘 在 销售 和 客户 关系 管理 等 方面 的 成 
功 应 用 , 为 实践 数据 挖掘 打下 坚实 的 基础 。 

本 书 适合 作为 高 等 院 校 相关 专业 高 年 级 本 科 生 或 研究 生 的 教材 或 参考 书 ,也 适合 当前 和 未 
来 的 数据 挖掘 实践 者 学 习 和 人 参考。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 八 断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 少 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 避 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 铺 努 力 ， 我 们 与 
Prentice Hall，Addison-Wesley，McGraw-Hill ，Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum ，Stroustrup ， 有 Kernighan， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 庚 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 入 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系 列 *。 为 了 保证 这 三 套 丛书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘 请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交通 大 学 、 南 京 大 学 、 疡 江 大 学 、 中 国 科 技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 淹 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 " ， 为 我 们 提供 选 题 意 见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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TV 


的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M.I.T.，Stanford，U.C. Berkeley，C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 洱 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 王 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
富 殿中 由 登 堂 而 和 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 序 


随 着 数据 库 技 术 的 应 用 越 来 越 普及 , 人 们 逐渐 陷 人 了 “数据 丰富 ,知识 贫乏 ”的 尴 伦 境 
地 ,因为 大 量 数据 沥 没 了 数据 中 隐 含 的 模式 和 有 益 信息 。 于 是 ,致力 于 摆脱 这 一 困境 的 数据 
挖掘 技术 从 20 世纪 90 年 代 起 步 并 得 到 迅速 发 展 。 数 据 挖掘 技术 是 数据 库 研究 、 开 发 和 应 用 
中 最 活 牙 的 分 支 之 一 ,是 一 种 基于 机 器 学 习 、 统 计 分 析 等 多 种 学 科 的 计算 机 技术 ,能够 有 效 
地 帮助 人 们 将 海量 数据 资源 转换 为 有 用 的 知识 和 信息 , 进而 帮助 人 们 科学 地 做 出 决策 。 

本 书 是 数据 挖掘 领域 的 巨著 ， 多 年 以 来 , 在 数据 挖掘 领域 的 地 位 始终 无 可 替代 , 其 内 容 
也 随 数据 挖掘 技术 的 发 展演 化 而 不 断 更 新 。 本 书 最 早 的 版 本 是 1997 年 出 版 的 ， 补 充 修订 后 
于 2004 年 出 版 第 2 版 。 新 版 中 减少 了 与 商业 相关 的 素材 , 增加 了 更 多 的 技术 素材 , 并 加 入 了 
作者 近年 来 的 最 新 研究 成 果 和 见解 ， 比 如 : 关于 数据 挖掘 在 营销 和 客户 关系 管理 方面 的 应 
用 、 基 本 统计 学 技术 的 使 用 、 生 存 分 析 和 为 挖 据 准 备 数据 等 内 容 。 基 于 存储 的 推理 增加 了 以 
最 近邻 技术 为 基础 的 协同 过 滤 方 法 ,从 而 在 技术 和 应 用 两 方面 更 加 全 面 、 系 统 地 介绍 了 数据 
挖掘 的 商业 环境 、 数 据 控 气 技术 及 其 在 商业 环境 中 的 应 用 。 

本 书 共有 18 章 , 内 容 涵盖 了 核心 的 数据 挖掘 技术 , 包括 : 决策 树 、 神 经 网 络 、 协 同 过 滤 、 
关联 规则 、 链 接 分 析 、 聚 类 和 生存 分 析 等 。 此 外 , 还 提供 了 数据 挖掘 最 佳 实践 的 概观 、 数 据 
挖掘 的 最 新 进展 和 一 些 极 具 挑 战 性 的 研究 课题 ， 其 技术 深度 与 广度 举世 公认 。 作 者 注重 实 
效 ,， 对 每 类 问题 均 提供 代表 性 算法 ,以 亲身 经 历 的 商业 案例 为 实例 , 给 出 每 一 技术 具体 的 应 
用 法 则 。 通 过 学 习 本 书 ， 读者 不 仅 可 以 精通 数据 挖掘 的 整体 结构 和 核心 技术 , 还 可 以 领略 数 
据 挖掘 在 营销 、 销 售 和 客户 关系 管理 等 方面 的 成 功 应 用 , 为 实践 数据 挖 气 打 下 坚实 的 理论 和 
应 用 基础 。 

本 书 的 目标 读者 是 当前 和 未 来 的 数据 挖 据 实 践 者 ,可 以 作为 相关 专业 高 年 级 本 科 生 的 选 
修 课 教 材 , 特别 适合 作为 研究 生 的 专业 课 教 材 。 本 书 用 生活 实例 开头 ,引出 基本 概念 , 同时 
提供 大 量 真正 的 商业 环境 实例 。 因 此 , 对 于 从 事 数据 挖掘 应 用 的 读者 来 说 , 是 一 本 必 备 的 参 
考 书 。 本 书 的 网 站 还 有 一 些 推荐 读物 和 练习 , 所 以 对 于 初学 者 来 说 , 也 是 一 本 可 读 性 极 佳 、 
适 于 循序 渐进 地 学 习 数 据 挖掘 的 首选 教科 书 。 

本 书 主要 由 别 荣 芳 、 尹 静 和 邓 六 爱 三 位 翻译 完成 。 全 书 由 别 荣 芳 统一 审 校 。 孙 运 传 参与 
了 部 分 审 校 工作 。 在 翻译 过 程 中 , 译 者 发 现 一 些 错误 和 疑似 错误 之 处 , 在 译文 中 对 一 般 拼写 
错误 和 明显 笔 误 均 未 作 说 明 而 直接 进行 了 校正 , 其 他 错误 则 在 相应 页 的 脚注 中 给 出 了 说 明 。 

由 于 时 间 仓 促 , 加 上 本 书 涉及 诸多 实际 应 用 领域 ， 原作 中 方言 但 语 和 非 信息 技术 专业 词 
汇 较 多 ,翻译 内 容 难免 存在 琉 漏 和 不 足 ,， 敬 请 读者 谅解 并 批评 指正 。 


译 者 
2006.6 
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非常 幸运 的 是 ， 我 们 周围 有 很 多 天 才 的 数据 挖掘 专家 ， 因 此 首先 要 感谢 在 Data Miners 
公司 的 同事 ， 从 他 们 那里 我 们 学 到 了 很 多 。 他 们 是 : 玛 记 Potts、Dorian Pyle 和 BaHij Masand。 
还 有 许多 曾经 与 我 们 密切 合作 的 客户 ， 我 们 也 把 他 们 视 为 同事 ;Harrison Sohmer 和 Stuart 
丰 上. Ward, 下。 编辑 Bob Elliott、 编 辑 助理 Erica Weinstein 和 责任 编辑 Emilie Hemman 帮助 我 
们 把 握 进度 , 并 保持 风格 一 致 。 毕 业 于 麻 省 理工 学 院 的 Lauren MeCann， 在 Data Miners 公司 
实习 期 间 , 准备 了 在 很 多 例子 中 使 用 的 人 口 普查 数据 ， 并 创建 了 一 些 图 表 。 

我 们 还 要 感谢 过 去 多 年 来 在 数据 挖掘 方面 与 我 们 共事 的 所 有 人 。 我 们 从 每 个 人 那里 学 到 


了 很 多 。 那 些 数据 挖 据 方 案 对 本 书 第 2 版 有 影响 的 人 包括 ; 


Al Fan 

Alan Parker 
Anne Milley 
Brian Guscott 
Bruce Rylander 
Corina Cortes 
Daryl Berry 
Daryl Pregibon 
Doug Newell 
Ed Freeman 


Erin McCarthy 


当然 , 我 们 仍然 要 感谢 在 第 1 版 曾经 感谢 的 人 们 ; 


Bob Flynn 
Bryan McINeely 
Claire Budden 
David Isaac 
David Waltz 
Dena d”Ebin 
Diana Lin 

Don Peppers 

了 Ed Horton 

卫 qdward Ewen 
Fred Chapman 
Gary Drescher 
Gregory Lampshire 
Janet Smith 
Jerry Modes 


HHerb Edqelstein 
Ji Holtz 

Joan Forrester 
John Wallace 
Josh Goff 

民 aren 人 Kennedy 
攻 urt Thearling 
Lynne Brennen 
Mark Smith 
Mateus Kehder 
Michael Patrick 


Jim Flynn 

上 amran Parsaye 
民 aren Stewart 
Larry Bookman 
Larry Scroggins 
Lars Rohrberg 
Lounette Dyer 
Marc Goodman 
Marc Reifeis 
Marge Sherold 
Mario Bourgoin 
Prof Michael Jordan 
Patsy Campbell 
Paul Becker 


Nick Gagliardo 
Nick Radcjliffe 

了 Patrick Surry 
Ronny Kohavi 
Sheridan Young 
Susan Hunt Stevens 
Ted Browne 

Terri Kowalchuk 
Victor Lo 

Yasmin Namini 


Zai Ying Huang 


Paul Berry 
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Ric Amari 

Rich Cohen 
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咱 


前 


本 书 第 1 版 于 1997 年 面世 。 该 书 实际 上 开始 于 1996 年 ,当时 我 和 Gordon 在 为 国家 银 
行 (NationsBank) (现在 是 美国 银行 ,Bank of America) 设计 一 天 的 数据 挖掘 研 讨 班 。Na- 
tionsBank 的 一 位 副 总 裁 Sue Osterfelt (她 还 与 Bill Inmon 合 著 有 一 本 关于 数据 库 应 用 的 图 
书 ) 使 我 们 深信 ， 研讨 班 的 材料 应 该 整理 成 一 本 书 。 她 把 Jon Wiley 多 Sons 公司 的 编辑 Bob 
lliott 介绍 给 我 们 , 在 我 们 还 没 来 得 及 仔细 考虑 这 件 事 情 之 前 ,就 签 了 一 份 合同 。 

我 们 两 个 人 以 前 从 未 写 过 书 ,， 前 面 几 章 的 草稿 清楚 地 说 明了 这 一 点 。 感 谢 Bob 的 帮助 ， 
我 们 取得 了 很 大 的 进步 ,最终 版 本 仍然 是 相当 令 人 骄傲 的 。 毫 不 夸张 地 说 , 这 一 经 历 改 变 了 
我 们 的 生活 : 第 一 是 占用 了 应 该 散步 的 每 一 小 时 ,甚至 是 应 该 睡觉 的 时 间 ; 其 次 , 更 肯定 地 
说 , 提供 了 我 们 创建 的 Data Miners 咨询 公司 的 基础 。 本 书 第 1 版 已 经 成 为 数据 挖掘 的 一 本 
标准 教材 ， 后 续 著 作 包 括 : Meastering Data Mining 和 RMinainrg the Webp。 

那么 为 什么 要 进行 修订 呢 ? 自从 第 荆 版 出 版 以 来 ,数据 挖掘 界 发 生 了 很 大 的 变化 。 例 
如 : 那 时 候 ，Amazon.com 才刚 刚 出 现 ; 美国 移动 电话 呼叫 费用 平均 为 每 分 钟 50 美 分 , 不 超 
过 25% 的 美国 人 拥有 移动 电话 ; KDD 数据 挖掘 会 议 才 举办 了 第 二 届 。 我 们 的 理解 也 改变 了 
很 多 。 尽 管 其 中 的 大 部 分 核心 算法 仍然 保持 不 变 , 但 是 算法 丛 人 的 软件 、 应 用 算法 的 数据 库 
以 及 用 于 解决 的 商业 问题 都 有 所 增长 和 演化 。 

即使 技术 界 和 商业 界 保持 不 变 , 我 们 也 希望 更 新 本 书 第 1 版 , 因为 在 其 间 的 几 年 , 我 们 
又 学 到 了 很 多 。 做 咨询 的 一 大 乐趣 就 是 时 刻 面 对 新 思想 、 新 间 题 和 新 的 解决 方案 。 我 们 并 不 
比 当年 写 第 1 版 的 时 候 更 聪明 , 但 确实 经 验 更 丰富 ， 而 且 我 们 的 写作 经 验 也 更 丰富 了 。 稍 微 
浏览 一 下 本 书 内 容 目 录 就 可 以 发 现 , 我 们 减少 了 很 多 与 商业 相关 的 材料 ， 而 增加 了 更 多 的 技 
术 材 料 。 另 外 , 把 一 些 商业 材料 融 汇 到 技术 章节 中 , 因此 使 数据 挖掘 技术 得 以 在 商业 环境 中 
来 讨论 , 希望 这 样 可 以 使 读者 更 容易 领会 到 如 何 把 技术 应 用 到 自己 的 商业 问题 。 

我 们 还 注意 到 , 许多 商业 学 校 的 课程 使 用 本 书 作 为 教材 。 尽 管 我 们 并 没有 把 本 书写 成 一 
本 教科 书 , 在 第 2 版 中 , 我 们 努力 使 它 可 以 用 作 教材 ， 书 中 提供 了 大 量 基 于 公开 可 用 的 数据 
的 实例 , 诸如 美国 的 人 口 普 查 数据 , 在 配套 网 站 www.data-miners.comycompanion 中 有 推荐 
阅读 材料 和 建议 的 练习 。 

全 书 仍然 分 为 三 个 部 分 , 第 一 部 分 讲述 数据 挖掘 的 商业 环境 。 开 篇 章节 给 出 了 数据 挖掘 
的 简介 , 解释 数据 挖掘 可 以 用 来 干什么 , 并 且 为 什么 需要 数据 挖掘 。 第 2 章 介绍 数据 控 所 的 
良性 循环 ， 这 是 一 个 持续 不 断 的 过 程 , 通过 这 个 过 程 ,数据 挖 据 将 数据 转变 为 指导 行动 的 信 
息 ,， 反 过 来 创造 了 更 多 的 信息 和 更 多 的 学 习 机 会 。 第 3 章 是 数据 挖 所 的 方法 论 和 最 佳 实践 的 
拓展 讨论 , 该 章 比 书 中 任何 其 他 一 章 更 得 益 于 我 们 写 第 一 本 书 以 来 的 经 历 , 这 里 介绍 的 方法 
论 基于 我 们 曾经 参与 的 成 功 案例 而 设计 。 第 4 章 在 第 1 版 中 根本 没有 相应 的 部 分 ,是 关于 数 
据 控 据 在 营销 和 客户 关系 管理 中 的 应 用 , 也 正 是 我 们 现在 所 从 事 的 领域 。 

第 二 部 分 讲解 数据 挖掘 本 身 的 技术 内 容 , 包含 第 硅 版 描述 的 所 有 技术 , 但 是 重新 进行 了 
调整 , 对 各 种 描述 进行 了 重 写 , 比 第 1 版 更 清晰 、 更 准确 。 但 仍然 保留 了 第 1 版 的 风格 , 即 可 
能 的 地 方 都 使 用 非 技术 语言 。 
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区 


除了 包含 第 1 版 涵盖 的 7 种 技术 : 决策 树 、 神 经 网 络 、 协 辐 过 滤 、 关 联 规 则 、 链 接 分 析 、 
聚 类 和 生存 分 析 之 外 , 还 增加 了 使 用 基本 的 统计 学 技术 以 及 生存 分 析 的 新 章节 。 生 存 分 析 是 
一 项 广泛 应 用 的 技术 , 从 医学 界 的 少量 样本 和 连续 的 时 间 测 量 , 到 营销 数据 中 发 现 的 大 量 样 
本 和 离散 时 间 度 量 , 都 可 应 用 。 基 于 存储 的 推理 一 章 还 包括 以 最 近邻 技术 为 基础 的 协同 过 滤 
方法 , 作为 产生 推荐 的 方式 , 已 经 为 广大 Web 零售 商 所 熟知 。 

第 三 部 分 讲述 在 商业 环境 中 使 用 技术 的 方法 ， 其 中 有 一 章 关 于 在 数据 中 发 现 客户 ， 另 一 
章 关 于 数据 挖掘 和 数据 仓库 的 关系 , 还 有 一 章 关 于 数据 挖掘 环境 〈 公 司 环境 和 技术 环境 两 个 
方面 ), 最 后 一 章 关 于 在 公司 中 应 用 数据 挖掘 。 该 部 分 新 增加 了 一 章 , 介绍 为 数据 挖掘 准备 
数据 。 这 是 一 个 极其 重要 的 话题 ,因为 很 多 数据 挖掘 者 反映 , 在 典型 的 数据 挖掘 工程 中 , 转 
换 数据 通常 需要 花费 大 多 数 的 时 间 。 

和 第 1 版 一 样 , 本 书 仍然 针对 当前 和 未 来 的 数据 挖掘 实践 者 。 既 不 是 为 软件 开发 者 提供 
如 何 实现 各 种 数据 挖掘 算法 的 细节 指导 , 也 不 是 为 了 使 研究 人 员 改 进 那些 算法 。 有 关 思 想 以 
非 技 术 的 语言 给 出 ， 尽 可 能 少 地 使 用 数学 公式 和 艰 泌 的 术语 。 每 一 种 数据 挖掘 技术 都 在 真实 
的 商业 环境 中 展示 ,给 出 大 量 来 自 商 业 环境 的 实例 。 简 而 言 之 , 我 们 努力 把 本 书写 成 打算 开 
始 数据 挖掘 生涯 的 技术 人 员 喜 欢 读 的 一 本 书 。 


Michael J，A，RBerry 
2003 年 10 月 
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第 1 章 数据 挖掘 的 缘起 和 内 容 


在 本 书 第 1 版 中 ,第 ! 章 的 第 一 名 就 写 到 : “马萨诸塞 州 萨 默 维尔 市 ， 本 书 作者 之 一 的 
故乡 …… ”， 接 着 讲述 了 那个 镇 上 的 两 个 小 店 和 他 们 如 何 与 客户 形成 学 习 关 系 (learning rela- 
tionship) 的 故事 。 该 章 描述 了 梳 小 辫 的 小 女孩 和 给 她 梳 闪 子 的 人 的 关系 ， 在 其 间 的 几 年 中 ， 
这 个 小 女孩 已 经 长 大 成 人 ， 离 开 小 镇 ， 也 不 再 梳 着 小 辩 ， 她 的 父亲 也 搬 到 附近 的 剑桥 居住 。 
但 是 有 一 件 事情 没 变 ， 作 者 仍然 是 Wine Cask 商店 的 忠实 客户 。 正 是 在 这 个 小 店 ， 同 样 忠 诚 
的 一 些 客户 在 1978 年 将 便宜 的 阿尔 及 利 亚 红酒 介 绍 给 他 ， 后 来 介绍 给 他 法 国 的 葡萄 酒 产 区 ， 
现在 正 帮 他 开发 意大利 和 德国 的 酒 源 。 

25 年 后 ， 他 们 仍然 有 一 位 患 实 的 客户 ， 这 并 非 偶 然 。 在 Wine Cask 商店 的 Dan 和 Steve 
了 解 他 们 的 客户 的 口味 和 可 承受 价位 ， 当 有 客户 询问 时 ， 他 们 的 回答 除了 基于 本 店 库存 外 ， 
还 有 因 日 积 月 累 而 得 到 的 有 关 该 顾客 口味 和 经 济 能 力 方面 的 信息 。 

Wine Cask 商店 的 人 掌握 很 多 有 关 葡 萄 酒 的 知识 ， 尽 管 这 种 知识 是 很 多 人 来 这 里 买 酒 而 
不 是 去 大 的 折扣 酒店 的 原因 之 一 ， 但 是 他 们 对 每 个 客户 的 详细 了 解 才 是 客户 持续 购买 的 主要 
原因 。 也 许可 以 在 大 街 对 面 开 另 一 个 酒店 ， 同 样 雇用 一 批 品 酒 专家 ， 但 是 要 达到 对 客户 了 解 
程度 具有 同样 水 平 至 少 需要 几 个 月 甚至 数 年 时 间 。 

经 营 好 的 小 商店 自然 与 他 们 的 客户 形成 学 习 关系 。 久 而 久之 ， 他 们 对 客户 的 了 解 越 来 越 
多 ， 然 后 用 这 种 了 解 更 好 地 为 客户 服务 ， 结 果 不 仅 获 得 忠实 的 客户 ， 还 盘 利 颇 丰 。 拥 有 数 十 
万 万 至 上 百 万 客户 的 大 公司 ， 难 以 形成 与 每 个 客户 的 密切 关系 ， 这 些 公司 必须 依赖 其 他 方法 
形成 与 客户 的 学 习 关 系 。 特 别 是 ， 他 们 必须 充分 利用 自己 拥有 的 大 量 东西 ， 那 就 是 几乎 每 笔 
客户 交易 所 产生 的 数据 。 本 书 将 要 讲述 的 就 是 如 何 把 客户 数据 转换 为 客户 知识 的 分 析 技 术 。 


1.1 分 析 客 户 关 系 管 理 系统 


人 们 普遍 认为 ， 任 何 规模 的 公司 都 需要 学 会 效仿 那些 以 服务 为 本 的 小 企业 的 成 功 之 
处 一 一 与 客户 建立 一 对 一 的 关系 。 客 户 关系 管理 〈customer relationship management，CRMI) 
系统 是 很 多 书 和 会 议 中 广泛 讨论 的 主题 ， 从 引导 追踪 软件 到 调用 中 心软 件 的 外 围 管 理 软件 都 
被 称 为 客户 关系 管理 工具 。 本 书 主要 关注 的 是 数据 挖掘 (data mining) 在 提高 公司 与 客户 形 
成 学 习 关 系 的 能 力 ， 进 而 改善 客户 关系 管理 中 所 起 的 作用 。 

在 任何 行业 ， 有 远见 的 公司 正在 向 着 下 面 的 目标 努力 : 努力 了 解 每 个 客户 个 体 ， 并 且 利 
用 这 种 了 解 使 客户 选择 与 他 们 进行 商业 活动 ， 而 不 是 选择 他 们 的 竞争 对 手 。 这 些 公司 也 正在 
学 习 认 识 每 个 客户 的 价值 ， 进 而 知道 郧 些 人 值得 投入 资金 和 精力 来 保持 联系 ， 哪 些 人 可 以 放 
弃 。 从 重视 广泛 的 市 场 到 重视 客户 个 体 的 这 种 转变 ， 需 要 整个 企业 在 市 场 、 销 售 和 客户 支持 
等 方面 适应 这 种 转变 。 

对 大 多 数 公司 来 说 ， 围 绕 客户 关系 建立 商业 活动 是 一 种 全 新 的 变革 。 银 行 一 贯 关注 如 何 
保持 存款 应 付 利息 和 贷款 应 收 利 息 的 差额 ， 电 信 公 司 关注 网 络 内 通话 连接 ， 保 险 公 司 关注 处 
理 理赔 和 投资 管理 。 仅 使 用 数据 挖 据 并 不 足以 把 一 个 注重 产品 的 组 织 转变 为 以 客户 为 中 心 的 
组 织 。 如 果 管 理 者 的 奖金 基于 新 物品 的 季度 销售 数量 而 不 是 小 部 件 的 销售 数量 ， 一 个 建议 给 
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某 个 客户 提供 一 个 小 部 件 而 不 是 一 件 新 物品 的 数据 挖掘 结果 极 容 易 被 和 忽略， 尽管 也 许 后 者 盘 
利 更 多 。 

狭义 地 讲 ， 数 据 控 握 是 一 系列 工具 和 技术 的 集合 ， 是 支持 以 客户 为 中 心 的 组 织 需 要 的 多 
项 技术 之 一 ; 广义 地 讲 ， 数 据 挖掘 是 一 种 态度 ， 它 表明 商业 活动 应 该 基于 认 知 ， 分 析 获 得 的 
决策 比 没 有 任何 分 析 所 得 的 决策 好 得 多 ， 经 过 测算 的 结果 更 利于 商业 和 恒利。 数据 挖 据 还 是 应 
用 这 些 工 具 和 技术 的 过 程 和 方法 论 。 为 进行 有 效 的 挖掘 ， 分 析 客 户 关系 管理 系统 的 其 他 要 求 
也 必须 到 位 。 为 了 与 其 客户 形成 学 习 关 系 ， 公 司 必 须 做 到 : 

。 注 意 客 户 正在 做 什么 

。 记 住 公司 及 其 客户 曾经 做 过 什么 

。 从 记 住 的 信息 学 习 

。 按照 获得 的 知识 进行 商业 活动 使 顾客 更 加 受益 

本 书 的 目标 是 上 述 第 三 个 方面 ， 也 即 从 过 去 发 生 的 事情 中 学 习 ， 这 种 学 习 不 可 能 凭空 进 
行 。 必 须 依靠 交易 处 理 (〈transaction processing) 系统 收集 客户 数据 ， 用 数据 仓库 存储 客户 历 
史 行 为 信息 ， 使 用 数据 挖掘 把 历史 数据 转变 成 未 来 行动 计划 ， 然 后 通过 某 种 客户 关系 策略 将 
这 一 计划 付 请 实施 。 


1.1.1 交易 处 理 系统 的 作用 


小 企业 通过 注意 客户 的 需求 ， 记 住 客户 的 喜好 ， 从 过 去 的 交流 中 学 习 如 何在 未 来 更 好 地 
服务 他 们 ， 由 此 建立 与 客户 的 关系 。 但 是 对 于 大 多 数 雇员 从 来 不 与 客户 交流 的 大 公司 来 说 ， 
如 何 完 成 类 似 的 事情 呢 ? 在 这 种 公司 中 即使 有 一 些 客户 交流 ， 也 可 能 仅仅 是 与 销售 职员 或 不 
知名 字 的 客服 中 心 的 员工 进行 交流 ， 那 么 ， 公 司 怎么 可 能 注意 到 或 记 住 这 些 信 息 ， 并 且 从 这 
种 交流 中 获取 信息 呢 ? 什么 东西 能 够 替代 可 以 识别 客户 姓 和 名、 面孔、 声音， 记 住 客户 的 习惯 
和 喜好 的 独特 的 创造 性 直 党 呢 ? 

一 名 话 ， 没 有 东西 可 以 代替 它 ! 但 这 不 代表 我 们 不 可 以 做 尝试 。 通 过 灵活 运用 信息 技 
术 ， 即 使 是 最 大 的 公司 也 可 获得 惊人 的 相近 结果 ! 在 大 商业 公司 ， 注 意 客户 的 行为 这 一 步 已 
经 高 度 自 动 化 ， 交 易 处 理 系统 无 处 不 在 ， 收 集 几 乎 所 有 的 数据 : 自动 售 货 机 、 电 话 交换 机 、 
网 络 服务 器 和 售 点 扫描 仪 等 生成 的 数据 ， 都 是 数据 挖掘 的 主要 素材 。 

目前 ， 每 天 的 生活 都 可 产生 一 系列 的 交易 记录 。 当 拿 起 电话 从 L.L.Bean 预订 一 只 皮 划 
艇 浆 或 者 从 Victoria”s Secret 定制 一 个 组 纹 文胸 ， 市 话 公司 就 生成 详细 电话 记录 ， 显 示 呼 叫 
时 间 、 呼 叫 电 话 号 码 以 及 被 叫 长 途 电话 公司 等 。 在 长 途 电话 公司 ， 也 会 生成 类 似 的 记录 ， 包 
括 持续 通话 时 间 和 使 用 的 交换 机 中 的 具体 路 由 线路 。 这 些 数据 连同 个 人 账号 信息 、 姓 名 和 地 
址 等 其 他 记录 产生 一 个 账单 。 订 购 公 司 也 会 记录 你 的 呼叫 ， 连 同 预 订 项 信息 以 及 对 一 些 推销 
商品 的 反应 。 当 接听 电话 的 销售 服务 代表 询问 你 的 信用 卡号 码 以 及 交付 期 限时 ， 信 息 很 快 转 
和 转账 的 信用 卡 验证 系统 ， 这 样 又 生成 了 一 条 记录 。 然 后 转账 业务 抵达 发 行 信用 卡 的 银行 ， 
出 现在 下 个 月 的 银行 账单 中 。 当 订单 连同 商品 号 码 、 型 号 和 颜色 进入 订单 系统 ， 在 付 账 系统 
和 库存 控制 系统 中 将 产生 另外 的 记录 。 几 小 时 后 ， 你 的 订单 又 会 在 UPS 或 者 FedEx 的 计算 
机 系统 中 产生 交易 记录 ， 它 们 在 你 家 和 公司 仓库 之 间 进 行 多 次 扫描 ， 可 以 使 你 通过 检查 邮递 
公司 的 网 页 来 方便 地 追踪 所 订购 的 物品 。 

这 些 交 易 记 录 不 是 专门 为 数据 控 据 生成 的 ， 而 是 公司 的 运作 需要 。 然 而 所 有 记录 均 包 含 
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重要 的 客户 信息 ， 并 且 可 以 被 成 功 挖掘 。 电 话 公司 利用 详细 通话 记录 发 现 哪些 居民 的 电话 号 
码 类 似 商 用 ， 从 而 对 在 家 中 进行 商业 活动 的 人 推出 特殊 服务 。 订 购 公 司 利用 历史 订单 判断 哪 
些 客户 应 该 包含 在 哪 种 未 来 邮件 名 录 中 ， 以 Victoria”s Secret 为 例 ， 它 可 以 发 现 哪 种 模式 可 
达到 最 好 销售 状况 。 联 邦 快 递 公 司 (federal express) 在 UPS 员工 的 一 次 轴 工 期 间 通 过 对 客 
户 运送 模式 的 改变 来 估算 它 在 客户 货物 运送 业务 的 份额 。 超 级 市 场 运用 销售 点 数据 来 决定 对 
哪些 用 户 使 用 何 种 优惠 券 。 网 络 零售 商 使 用 过 去 的 购买 情况 来 确定 当 客 户 浏 览 网 站 时 应 该 展 
示 哪 些 商 品 。 

这 些 交 易 系统 是 客户 接触 点 ， 从 那里 客户 行为 信息 首次 进入 公司 ， 因 而 ， 它 们 也 是 公司 
的 眼睛 和 耳 条 〈 也 许 是 鼻子 、 舌 头 或 者 手指 ) 。 


1.1.2 数据 仓库 的 作用 


关注 客户 的 公司 把 与 每 位 客户 或 者 潜在 客户 的 每 条 互动 记录 视 为 一 次 学 习 机 会 ， 这 些 互 
动 包括 打 给 客户 服务 中 心 的 每 次 电话 、 每 一 笔 销 售 点 交易 、 每 一 个 订单 、 对 公司 网 站 的 每 一 
次 访问 。 但 是 学 习 不 只 是 收集 数据 ， 事 实 上， 很 多 公司 收集 数 千 亿 字 节 甚至 百 万 亿 字 节 的 客 
户 数据 ， 却 没有 获取 任何 有 用 的 信息 。 获 取 数 据 是 某 些 运作 的 需要 ， 如 库存 控制 或 者 付 账 ， 
一 旦 达到 目的 ， 数 据 将 被 搁置 在 磁盘 或 者 磁带 上 ， 或 者 被 丢弃 。 

为 了 研究 客户 状况 ， 首 先 必须 将 从 各 种 渠道 收集 的 数据 ， 如 付 账 记录 、 扫 描 数 据 、 登 记 
表格 、 申 请 、 电 话 记录 、 优 惠 券 兑 换 情 况 和 调查 表 等 ， 用 某 种 一 致 和 有 效 的 访 式 组 织 起 来 ， 
这 就 是 数据 仓库 (data warehousing)。 数 据 仓 库 能 使 公司 记 住 自己 的 客户 的 情况 。 

提示 : 客户 模式 随 着 时 间 的 推移 而 日 趋 清晰 。 数 据 仓库 需要 提供 精确 的 历史 数据 ， 

以 便 通过 数据 挖 据 得 到 更 可 信和 的 趋势 。 

数据 仓库 的 最 重要 的 特征 之 一 是 随时 间 变 化 追踪 客户 行为 的 能 力 。 客 户 关系 管理 系统 感 
兴趣 的 很 多 模式 只 能 随时 间 日 趋 显 现 : 使 用 趋势 是 上 升 还 是 下 降 ? 客户 回头 的 频繁 程度 如 
何 ? 客户 更 倾向 哪 种 方式 ? 客户 对 哪 种 促销 形式 有 回应 ? 

多 年 以 前 ， 当 一 个 大 的 目录 零售 商 〈 通 过 商品 目录 册 订 购 进行 销售 ，catalog retailer) 首 
次 保存 了 一 年 以 上 的 历史 投递 目录 以 及 客户 的 响应 后 ， 发 现 了 保持 客户 历史 行为 数据 的 重要 
性 。 他 们 发 现 ， 一 些 客户 只 有 在 圣诞 节 期 间 才 从 目录 中 预订 。 利 用 这 部 分 用 户 的 信息 ， 他 们 
决定 做 些 尝试 ， 提 出 一 种 方法 在 一 年 的 其 他 时 间 里 刺激 客户 下 订单 的 兴趣 ， 或 者 通过 在 那 段 
时 间 不 给 这 些 客户 投递 来 增加 客户 总 体 响应 率 。 虽 然 没 有 作 进 一 步 的 试验 ， 还 不 知道 哪个 方 
式 正 确 ， 但 假如 没有 历史 数据 的 帮助 ， 就 永远 不 知道 考虑 这 个 问题 。 

原始 数据 产生 于 操作 系统 并 存储 其 中 ， 但 好 的 数据 仓库 提供 了 一 种 更 为 友好 的 访问 从 交 
易 数 据 中 提取 的 信息 的 方法 。 理 想 的 情况 是 ， 数 据 仓 库 中 来 源 于 多 个 数据 源 的 数据 通过 清 
理 、 合 并 、 与 某 个 客户 关联 ， 汇 总 成 各 种 有 益 的 形式 。 现 实情 况 中 通常 达 不 到 这 种 理想 状 
态 ， 但 是 公司 的 数据 仓库 仍然 是 分 析 客 户 关系 管理 的 最 重要 的 数据 源 。 


1.1.3 数据 挖 据 的 作用 


数据 仓库 为 企业 提供 数据 存储 ， 但 是 非 智能 的 存储 这 无 用 处 。 智 能 允许 我 们 梳理 存储 信 
奶 ， 注 意 某 些 模式 ， 设 计 规 则 ， 提 出 新 思想 ， 解 决 关键 问题 ， 预 测 未 来 趋势 。 本 书 阐述 了 为 
数据 仓库 增加 智能 特性 的 工具 和 技术 ， 这 些 技术 使 得 使 用 客户 数据 更 进一步 了 解 客户 成 为 
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可 能 。 

谁 可 能 仍然 是 忠实 的 客户 ? 谁 可 能 逃 掉 ? 什么 产品 应 该 以 何 种 定位 面世 ? 是 什么 决定 某 
个 客户 是 否 对 某 种 产品 做 出 回应 ? 哪 种 电话 销售 方式 最 适合 某 个 客户 ? 下 一 个 分 支 机 构 应 该 
设 在 哪里 ? 某 个 客户 需要 的 下 一 种 产品 或 者 服务 是 什么 ? 类 似 这 些 问题 的 答案 就 隐藏 在 公司 
数据 中 ， 需 要 强 有 力 的 数据 挖 气 工 具 才能 找到 这 些 答 案 。 

用 于 客户 关系 管理 的 数据 挖掘 的 核心 思想 是 过 去 的 数据 包含 对 未 来 有 用 的 信息 。 因 为 在 
公司 数据 中 获取 的 客户 行为 不 是 杂乱 无 章 的 ， 而 是 反映 了 客户 的 不 同 需要 、 倾 向 、 哮 好 以 及 
处 理 方式 。 数 据 挖掘 的 目标 是 从 历史 数据 找寻 不 同 的 模式 ， 这 些 模 式 清楚 反映 了 这 些 需要 、 
倾向 和 嗜好 。 事 实 上 ， 由 于 这 些 模式 并 不 总 是 很 清晰 ， 客 户 给 出 的 信号 有 噪声 ， 从 而 使 这 项 
任务 变 得 很 困难 。 从 噪声 中 分 离 信号 ， 从 看 似 随意 的 变化 中 识别 主要 的 模式 是 数据 挖掘 的 一 
项 重要 任务 。 

本 书 涵盖 了 几乎 所 有 重要 的 数据 挖掘 技术 ， 以 及 每 项 技术 在 客户 关系 管理 环境 下 的 优 
缺点 。 


1.1.4 客户 关系 管理 策略 的 作用 


为 达到 有 效 性 ， 数 据 挖 据 必 须 在 事情 发 生 的 环境 内 进行 ， 这 种 环境 允许 企业 从 获得 的 知 
识 来 改变 其 行为 。 如 果 没 有 人 能 够 给 手机 用 户 提供 更 适合 的 价位 套餐 ， 知 道 他 可 能 因为 选择 
了 错误 的 手机 套餐 而 打算 退出 也 是 没有 用 的 。 数 据 挖掘 应 该 从 入 整体 客户 关系 策略 ， 通 过 这 
个 策略 可 以 清楚 地 知道 根据 从 数据 挖掘 中 获取 的 知识 所 应 采取 的 动作 。 一 旦 确定 低 价值 的 用 
户 ， 应 该 如 何 对 待 他 们 ? 有 哪些 计划 可 以 刺激 他 们 的 消费 从 而 增加 他 们 的 价值 ? 或 者 降低 为 
他 们 服务 的 成 本 更 有 意义 ? 如 果 某 些 渠 道 可 以 带 来 更 有 利 可 图 的 客户 ， 相 应 的 资源 该 如 何 转 
向 这 些 渠 道 ? 

数据 挖 据 是 一 个 工具 。 像 其 他 工具 一 样 ， 只 知道 它 如 何 工 作 是 不 够 的 ， 还 必须 了 解 如 何 
应 用 它 。 


数据 挖 据 建 议和 业务 决策 

本 段 稍 微 详 细 地 探索 正文 中 的 例子 。 手 机 服务 提供 商 的 消耗 分 析 常 常 显示 : 当 用 户 的 呼 
叫 模 式 与 其 价位 套餐 不 匹配 时 ， 用 户 可 能 取消 业务 。 用 户 使 用 电话 的 时 间 超 出 计划 时 ， 超 出 
部 分 通常 要 付 很 高 的 价格 ; 而 没有 用 完全 部 时 间 的 用 户 ， 剩 余 的 时 间 部 分 仍 会 按 分 钟 数 收 
费 ， 这 样 的 用 户 就 可 能 被 其 他 竞争 者 提供 的 更 便宜 的 套餐 豚 引 走 。 

这 种 结果 表明 ， 应 该 预先 积极 地 做 好 工作 ， 使 客户 使 用 合适 的 价位 套餐 。 但 这 不 是 一 个 
简单 的 决定 能 够 完成 的 。 只 要 这 些 使 用 不 合适 价位 套餐 的 客户 不 退出 ， 任 其 自然 ， 公 司 从 他 
们 那里 可 以 赚 取 更 高 的 利润 。 进 一 步 分 析 ， 也 许 其 中 一 部 分 客户 对 价格 不 敏感 ， 他 们 也 许 会 
安 于 现状 ， 但 是 任何 小 的 动作 都 有 可 能 给 客户 提供 退出 的 机 会 。 或 许 一 个 大 小 适中 的 测试 可 
以 解决 这 些 问题 ， 数 据 挖 掘 有 助 于 做 出 更 可 行 的 决定 。 它 可 以 为 需要 做 的 测试 提出 些 建议 ， 
但 最 终 由 企业 做 出 决策 。 


1.2 什么 是 数据 挖 据 
顾名思义 ， 数 据 挖 据 是 探查 和 分 析 大 量 数据 以 发 现 有 意义 的 模式 和 规则 的 过 程 。 对 于 本 
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书 ， 我 们 假设 数据 挖掘 的 目标 是 允许 公司 通过 对 客户 的 更 好 了 解 来 改善 其 市 场 、 销 售 和 客户 
支持 运作 。 然 而 应 该 说 明 的 是 ， 本 书 描述 的 技术 和 工具 同样 适用 于 其 他 领域 ， 从 法 律 的 实施 
到 射电 天 文学 ， 以 及 医药 和 工业 过 程控 制 等 。 

事实 上 ， 几 乎 没有 哪个 数据 挖掘 算法 是 专 为 商业 应 用 而 发 明 的 。 商 用 数据 挖掘 工具 从 统 
计 学 、 计 算 机 科学 和 机 器 学 习 研 究 等 方面 借鉴 了 很 多 技术 。 究 竟 选 择 哪 些 数 据 挖 掘 技术 的 组 
合 以 应 用 于 某 个 具体 情况 ， 取 决 于 数据 挖掘 任务 自身 、 可 用 数据 的 种 类 以 及 数据 挖 据 人 员 的 
偏好 和 技巧 。 

数据 挖掘 分 为 定向 和 非 定向 两 类 。 定 向 数据 挖掘 的 目的 是 解释 或 者 分 类 某 个 特殊 的 目标 
域 ， 如 收入 或 者 反馈 。 非 定向 数据 挖掘 的 目的 是 在 不 预 设 目标 域 或 确定 类 的 前 提 下 ， 找 出 在 
批量 数据 间 的 模式 或 者 相似 性 。 这 两 种 类 型 都 将 在 后 面 的 章节 介绍 。 

数据 挖掘 与 模型 构造 密切 相关 。 模 型 就 是 把 一 组 输入 关联 到 一 个 特定 输出 的 一 个 算法 或 
者 规则 集 ， 这 里 的 输入 通常 是 公司 数据 库 字段 的 形式 。 回 归 (regression) 、 神 经 网 络 (neural 
network) 、 决 策 树 〈decision tree) 和 本 书 中 讨论 的 其 他 大 部 分 技术 都 是 构造 模型 的 技术 。 在 
适当 的 情况 下 ， 通 过 解释 某 种 特定 结果 (如 下 订单 或 者 未 付 账 等 ) 如 何 与 已 知事 实 相 关 ， 模 
型 可 以 给 出 更 好 的 理解 。 模 型 也 可 用 来 产生 得 分 (score)。 得 分 是 以 一 个 简单 的 数值 来 表述 
模型 输出 的 一 种 方式 。 得 分 可 用 于 将 客户 排序 ， 从 最 忠诚 到 最 不 忠诚 ， 从 最 可 能 响应 到 最 少 
响应 ， 从 最 可 能 拖欠 贷款 到 最 不 可 能 拖欠 贷款 等 。 

数据 挖掘 过 程 有 时 也 称 为 知识 发 现 ， 或 者 数据 库 中 的 知识 发 现 (Knowledge discovery in 
databases，KDD)。 我 们 更 倾向 于 认为 它 是 知识 创造 。 


1.3 数据 挖掘 可 以 完成 哪些 工作 


很 多 智能 的 、 经 济 的 以 及 商业 利益 问题 可 用 短语 表示 为 如 下 6 类 任务 : 

。 分 类 (classification ) 

。 估 计 〈estimation ) 

。 预 测 〈prediction ) 

。 关 联 分 组 (affinity grouping) 或 关联 规则 (association rule) 

。 聚 类 (clustering ) 

。 描 述 和 建立 简 档 〈description and profiling) 

其 中 ， 前 三 项 是 定向 数据 挖掘 的 例子 ， 目 的 是 发 现 特定 目标 变量 的 值 。 关 联 分 组 和 聚 类 
是 非 定 向 挖掘 的 任务 ， 目 的 是 在 不 限定 特定 目标 变量 的 情况 下 揭示 数据 的 结构 。 建 立 简 档 可 
能 是 定向 的 ， 也 可 能 是 非 定向 数据 控 据 任务 。 


1.3.1 分 类 


分 类 是 最 常见 的 数据 挖掘 任 务 之 一 ， 它 似乎 是 人 类 的 规则 。 为 了 理解 并 与 周围 环境 交 
流 ， 我 们 每 天 都 在 归 类 、 分 类 以 及 分 级 。 我 们 把 生物 分 为 门 、 种 和 网， 物质 分 解 到 不 同 元 
素 ， 犬 分 为 品种 ， 人 分 种 族 ， 牛 排 和 椒 密 分 为 USDA 等 级 。 

分 类 包括 考察 一 类 新 出 现 的 对 象 的 特征 ， 并 归 类 到 已 定义 类 中 。 分 类 的 对 象 通常 表示 为 
数据 库 表 或 者 文件 中 的 记录 ， 分 类 工作 包括 向 数据 库 添 加 一 个 新 列 ， 并 给 出 某 种 分 类 代码 。 

分 类 工作 首先 要 有 一 个 清晰 定义 的 类 ， 还 要 有 一 系列 已 分 类 实例 。 分 类 过 程 实际 上 是 先 
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建立 某 种 模型 ， 然 后 将 其 用 于 对 未 分 类 数据 进行 分 类 。 

本 书 中 已 讲 过 的 分 类 工作 的 例子 包括 

“ 将 信用 卡 申请 者 分 为 低 、 中 、 高 风险 

“ 选择 在 网 页 上 展示 的 内 容 

“ 确定 哪些 电话 号 码 与 传真 机 相连 

。 发现 欺骗 性 理赔 申请 

*。 基于 工种 描述 文本 ， 指 定 行业 代码 和 工种 设计 

所 有 这 些 例 子 中 的 类 都 是 有 限 的， 我们 期 望 能 够 把 新 对 象 归 人 其 中 的 某 一 个 类 中 。 决 策 
树 〈 在 第 6 章 讨论 ) 和 最 近邻 技术 〈 在 第 8 章 讨 论 ) 都 能 很 好 地 用 于 分 类 。 神 经 网 络 (在 第 
7 章 讨 论 ) 和 链接 分 析 〈 在 第 10 章 讨论 ) 也 是 在 某 些 情况 下 对 分 类 有 用 的 方法 。 


1.3.2 估计 


分 类 给 出 的 结果 是 离散 的 : 是 或 否 ， 是 麻疹 、 风 疹 还 是 水 豆 。 而 估计 则 是 处 理 连 续 值 结 
果 。 输 入 一 组 数据 ， 估 计 给 出 一 个 未 知 连 续 变 量 的 值 ， 如 收入 、 高 度 或 者 信用 卡 的 余额 。 

实际 上 ， 估 计 经 常用 于 分 类 任务 。 如 果 一 个 信用 卡 公 司 希望 向 滑雪 吉 制 造 商 出 售 账单 信 
封 封面 广告 空间 ， 它 可 能 建立 的 分 类 模型 是 把 持 卡 人 分 为 请 雪 者 或 者 非 滑 雪 者 两 种 。 另 一 种 
方法 是 建造 模型 ， 对 每 个 持 卡 人 给 以 “滑雪 倾向 值 分 ”， 得 分 可 以 是 0 到 1 的 数值 ， 表 示 持 
卡 人 成 为 滑雪 者 的 可 能 性 。 这 样 分 类 任务 变 为 建立 半 值 得 分 ， 任 何 一 位 得 分 超过 阐 值 的 人 被 
划 为 滑雪 者 ， 而 低 于 这 个 值 的 人 被 认为 是 非 滑 雪 者 。 

估计 方法 的 优势 是 个 人 记录 可 以 按照 估计 值 排序 。 这 一 点 的 重要 性 可 以 从 下 面 的 例子 中 
看 出 ， 假 如 滑雪 靴 制 造 公 司 打算 投递 $0 万 封 信件 ， 如 果 确 定 有 150 万 滑雪 者 ， 使 用 分 类 方 
法 ， 它 也 许 会 简单 地 将 广告 寄 给 随意 从 这 150 万 人 中 抽出 的 50 万 人 。 但 是 按照 持 卡 人 的 
“滑雪 倾向 值 分 "， 公 司 可 以 把 广告 寄 给 最 有 可 能 的 50 万 位 候选 者 。 

估计 任务 的 例子 还 包括 

*。 估计 一 个 家 庭 的 孩子 数目 

* 估计 一 个 家 庭 的 总 收入 

。 估计 客户 的 寿命 值 

。 估计 某 人 对 余额 转移 诱惑 的 回应 的 可 能 性 

回归 模型 〈regression model， 在 第 $ 章 讨 论 ) 和 神经 网 络 (在 第 7 章 讨论 ) 都 非常 适合 
估计 任务 。 如 果 目 的 是 估计 一 个 事件 的 时 间 〈 如 客户 停止 时 间 )， 生 存 分 析 (survival analy- 
sis， 见 第 12 章 ) 也 非常 适合 估计 任务 。 


1.3.3 预测 


预测 与 分 类 和 估计 一 样 ， 但 其 中 记录 的 分 类 依据 是 一 些 预测 的 未 来 行为 或 者 估计 的 未 来 
值 。 在 预测 任务 中 ， 检 验 分 类 准确 度 的 惟一 方法 是 等 待 和 观察 。 把 预测 从 分 类 和 估计 中 分 离 
为 单独 的 任务 ， 主 要 是 由 于 在 预测 建 模 时 ， 存 在 其 他 关于 输入 变 元 的 时 序 关 系 或 者 目标 变 元 
的 预测 问题 。 

所 有 用 于 分 类 和 估计 的 技术 均 可 稍 加 改变 后 用 于 预测 ， 这 种 改变 是 利用 训练 样本 中 那些 
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已 知 的 历史 数据 验证 样本 中 要 预测 的 变量 值 ， 这 些 变量 值 在 训练 样本 中 是 已 知 值 。 历 史 数 据 
用 于 构造 模型 ， 以 解释 当前 观察 到 的 行为 。 当 这 个 模型 应 用 于 当前 的 输入 ， 给 出 的 结果 就 是 
对 未 来 行为 的 预测 。 

本 书 中 已 讨论 的 数据 挖掘 技术 涉及 的 预测 任务 例子 包括 : 

。 预测 当 信用 卡 湾 在 用 户 收 到 转账 单 后 ， 可 能 转账 的 额度 

。 预测 哪些 客户 在 6 个 月 之 内 可 能 离开 

。 预测 哪些 电话 用 户 会 预订 增值 服务 ， 例 如 三 方 通话 或 者 声音 邮件 

只 要 训练 数据 以 适当 的 形式 存在 ， 本 书 讨 论 的 数据 挖掘 技术 都 可 以 应 用 于 预测 。 选 择 哪 
种 技术 取决 于 输入 数据 的 本 质 、 预 测 数 值 的 类 型 和 预测 解释 的 重要 性 。 


1.3.4 关联 分 组 或 关联 规则 


关联 分 组 的 任务 是 确定 哪些 事情 应 该 分 在 一 起 。 原 型 例子 是 购物 篮 分 析 的 核心 任务 ， 即 
在 超市 的 购物 车 中 哪些 物品 会 放 在 一 起 。 和 零售 连锁 店 可 以 使 用 关联 分 组 来 计划 商店 货架 或 目 
录 上 的 物品 放置 位 置 ， 以 便 把 经 常 被 一 起 购买 的 物品 放 在 一 起 。 

关联 分 组 也 可 以 用 于 确认 交叉 销售 的 机 率 ， 设 计 吸 引 人 的 产品 或 服务 包 〈 组 )。 

关联 分 组 是 由 数据 产生 规则 的 一 个 简单 方法 。 如 果 猪 粮 和 小 猫 窝 两 种 物品 经 常 放 在 一 
起 ， 我 们 可 以 产生 两 条 关联 规则 : 

* 严 猫 粮 的 人 购买 小 猫 窝 的 可 能 性 为 P1; 

*。 严 小 猎 富 的 人 购买 猫 粮 的 可 能 性 为 P2。 

关联 规则 将 在 第 9 章 详细 讨论 。 


1.3.5 聚 类 


育 类 是 把 各 不 相同 的 个 体 分 割 为 有 更 多 相似 性 的 子 群 或 者 闭 的 工作 。 聚 类 与 分 类 的 区 别 
在 于 聚 类 不 依赖 于 预先 定义 的 类 ， 而 分 类 是 以 训练 预 分 类 样本 构建 的 模型 为 基础 ， 把 每 条 记 
录 分 配 到 一 个 预定 义 的 类 中 。 

在 聚 类 中 ， 没 有 预定 义 的 类 和 样本 。 记 录 完 全 依靠 其 自 相 似 性 被 归 为 一 类 。 如 果 徐 有 什 
么 意义 的 话 ， 结 果 也 完全 由 使 用 者 确定 赋予 该 篮 何 种 意义 。 不 同 症状 集合 也 许 代 表 不 同 的 疾 
病 ， 客 户 属性 艇 也 许 表示 不 同 的 市 场 份额 。 

聚 类 通常 作为 一 些 其 他 形式 的 数据 控 揭 或 建 模 的 前 奏 。 例 如 ， 聚 类 通常 作为 市 场 分 割 的 
第 一 步 ， 不 是 对 “客户 对 哪些 促销 反应 最 好 ”提出 一 个 统一 的 适合 所 有 人 的 标准 ， 而 是 首先 
将 客户 划分 为 戏 ， 即 划分 为 有 相似 购物 习惯 的 人 群 ， 然 后 提问 对 每 个 得 哪 种 促销 反应 最 好 。 
聚 类 将 在 第 11 章 中 进行 详细 讨论 ， 第 7 章 讨 论 另 一 个 有 时 用 于 涌 类 的 技术 一 一 自 组 织 图 。 


1.3.6 建立 简 档 


数据 挖掘 的 目的 有 时 仅仅 是 描述 在 繁杂 的 数据 库 中 正在 进行 的 事件 ， 在 某 种 程度 上 加 强 
我 们 对 当前 生成 数据 的 人 、 产 品 或 者 进程 的 理解 。 一 个 好 的 行为 描述 经 常 也 是 对 行为 本 身 的 
一 种 解释 ， 至 少 提示 从 哪里 着 手 寻找 解释 。“ 支 持 民主 党 的 女性 在 数量 上 大 于 男性 ”这 样 一 
个 简单 的 描述 就 是 美国 政治 中 著名 的 性 别 差 异 的 一 个 例子 ， 它 引起 了 大 众 广 泛 的 兴趣 ， 也 导 
致 了 新 闻 记 者 、 社 会 学 家 、 经 济 学 家 和 政治 科学 家 的 进一步 研究 ， 更 不 用 说 想 进入 政府 机 关 
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的 候选 人 了 。 
决策 树 (第 6 章 讨论 ) 是 对 一 个 与 特殊 目标 相关 的 客户 〈 或 任何 其 他 事情 ) 建立 简 档 的 
强 有 力 的 工具 。 关 联 规则 (第 9 章 讨 论 ) 和 聚 类 (第 11 章 讨 论 ) 也 可 用 于 建立 简 档 。 


1.4 为 什么 现在 研究 


本 书 描述 的 多 数 数据 挖掘 技术 早已 经 存在 ， 至 少 作为 学 术 算 法 已 经 存在 数 年 或 者 数 十 
年 。 然 而 ， 仅 仅 在 过 去 的 十 几 年 中 ， 商 业 数 据 挖 掘 才 大 规模 地 流行 。 这 应 归于 下 述 几 个 因素 
的 共同 结果 : 

*。 数据 正在 生成 

。 数 据 正 在 形成 数据 仓库 

。 计 算 能 力 足以 承受 

。 客 户 关 系 管 理 的 兴趣 增强 

*。 商业 数据 挖掘 软 件 产品 已 经 易于 使 用 

下 面 依次 考察 上 述 的 每 一 个 因素 。 


1.4.1 数据 正在 生成 


当 存 在 大 量 数据 时 ， 数 据 挖掘 最 有 意义 。 事 实 上 ， 多 数 数据 挖掘 算法 需要 大 量 数 据 来 建 
立 或 训练 模型 ， 以 便 进 行 分 类 、 预 测 、 估 计 或 其 他 数据 挖掘 任务 。 

包括 远程 通信 和 信用 卡 公司 在 内 的 一 些 企业 ， 已 经 与 客户 产生 了 一 个 自动 化 的 交互 关 
系 ， 生 成 大 量 交 易 记录 。 但 是 仅仅 到 最 近 ， 日 常生 活 自动 化 才 变 得 普遍 深入。 现今 ， 超 级 市 
场 销售 点 扫描 器 、 自 动 售 货机 、 信 用 卡 和 借 记 卡 、 按 次 计 费 电视 、 在 线 购 物 、 资 金 电子 转 
账 、 自 动 化 的 订单 处 理 和 电子 售票 等 类 似 手段 的 兴起 意味 着 数据 正在 以 空前 的 速度 产生 和 
收集 。 


1.4.2 数据 正在 形成 数据 仓库 


数据 不 但 已 经 大 量 产生 ， 而 且 正在 越 来 越 频繁 地 由 运作 账单 、 (旅馆 房间 等 ) 预订 、 索 
赔 处 理 、 订 单 系统 中 提取 出 来 ， 然 后 输入 到 数据 仓库 中 成 为 企业 数据 的 一 部 分 。 

数据 仓库 从 多 种 不 同 数据 源 ， 以 与 关键 词 和 字段 定义 相 容 的 共同 格式 ， 将 数据 集中 在 一 
起 。 企 业 一 般 必须 在 一 个 操作 系统 上 进行 经 营 活动 ， 通 常 不 可 能 (当然 也 不 建议 ) 在 该 系统 
上 进行 密集 型 的 计算 或 输入 /和 输出 数据 挖掘 操作 。 但 无 论 如 何 ， 操 作 系 统 以 某 种 格式 存储 数 
据 ， 这 种 格式 是 为 最 优化 操作 任务 的 性 能 而 设计 ， 通 常 这 种 格式 不 太 适 合 像 数 据 挖掘 之 类 的 
决策 支持 工作 。 数 据 仓 库 应 该 是 专门 为 决策 支持 而 创立 ， 以 便 简化 数据 挖掘 者 的 工作 。 


1.4.3 计算 能 力 足 以 承受 


数据 挖 据 算 法 通常 需要 并 行 处 理 相 当 数 量 的 数据 ， 很 多 也 是 精深 的 计算 。 硬 盘 、 内 存 、 
处 理 器 和 LIMO 带宽 连续 惊人 的 降价 ， 已 经 使 得 曾经 昂贵 的 仅 用 于 政府 资助 的 几 个 实验 室 的 
技术 进入 普通 企业 。 

主流 提供 商 ， 如 Oracle，Teradata 和 IBM 的 并 行 关系 数据 库 管 理 软件 的 成 功 引 入 ， 已 经 
将 并 行 处 理 能 力 带 人 很 多 公司 的 数据 中 心 。 这 些 并 行 数 据 库 服务 器 平台 为 大 规模 的 数据 挖掘 
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提供 了 极 好 的 运行 环境 。 
1.4.4 客户 关系 管理 的 兴趣 增强 


在 各 行 各 业 ， 许 多 公司 已 经 开始 认识 到 客户 对 业务 非常 重要 ， 客 户 信息 是 他 们 的 宝贵 财 
富 之 一 。 

1. 每 种 业务 都 是 服务 业务 

对 从 事 服务 业 的 公司 来 说 ， 信 息 意 味 着 竞争 优势 。 这 就 是 为 什么 连锁 旅馆 记录 你 对 不 吸 
烟 房间 的 倾向 ， 汽 车 租赁 公司 记录 你 偏好 的 车 型 。 另 外 ， 传 统 理解 认为 自己 不 是 服务 提供 商 
的 公司 也 开始 有 另外 的 思考 。 汽 车 经 销 商 出 售 的 是 汽车 还 是 运输 能 力 ? 如 果 是 后 者 ， 当 你 的 
汽车 在 修理 时 ， 经 销 商 就 应 该 提供 一 辆 代用 车 〈 现 在 很 多 都 如 此 )。 

甚至 日 用 品 也 可 以 增加 服务 内 容 。 家 庭 燃油 供应 公司 监控 你 的 用 油状 况 ， 当 你 需要 更 多 
油 时 他 们 会 递送 ， 与 那些 期 望 你 记 住 在 油箱 用 于 或 导管 封 住 之 前 打 电 话 安排 递送 的 公司 相 
比 ， 会 售 出 更 多 产品 。 信 用 卡 公 司 、 长 途 服务 提供 商 、 航 空 公司 和 所 有 产品 种 类 的 零售 商 
人 ， 经常 在 服务 和 价格 两 个 方面 进行 竞争 。 

2. 信息 是 产品 

很 多 公司 发 现 ， 他 们 拥有 的 关于 客户 的 某 些 信息 不 仅 对 自己 非常 有 用 ， 对 别人 也 同样 有 
用 。 在 有 忠诚 卡 计划 的 超级 市 场 中 ， 也 有 消费 者 货物 包装 产业 喜欢 知道 的 信息 ， 即 关于 谁 购 
买 了 哪些 产品 的 信息 。 信 用 卡 公司 也 有 航空 公司 想 知 道 的 信息 ， 即 谁 购买 了 大 量 的 机 票 。 
级 市 场 和 信用 卡 公司 都 处 在 信息 经 纪 人 (中间 人 ) 的 位 置 。 当 超级 市 场 承诺 可 以 给 合适 的 购 
物 者 更 高 兑换 率 时 ， 超 级 市 场 可 以 收取 消费 者 货物 包装 公司 的 更 多 费用 来 打印 优惠 券 。 信 用 
卡 公司 可 以 要 求 航空 公司 针对 经 常 乘 飞 机 的 人 们 进行 促销 ， 吸 引 以 前 乘坐 其 他 航空 公司 飞机 
的 人 。 

Google 知道 人 们 希望 在 网 络 中 寻找 什么 ， 这 得 益 于 出 售 装 助 链接 所 获得 的 信息 : 保险 公 
司 支付 费用 确保 搜索 “汽车 保险 ”的 人 链接 到 公司 的 网 址 ; 金融 服务 支付 赞助 链接 费 ， 以 便 
有 人 搜索 短语 “抵押 贷款 ”时 可 以 出 现 该 竟 助 商 的 链接 。 

事实 上 ， 任 何 公司 在 收集 有 价值 的 数据 时 ， 就 处 于 信息 经 纪 人 的 位 置 。Cedar Rapids 
Gazette 报 得 益 于 其 在 东 爱 荷 华 州 22 县 的 优势 位 置 ， 为 地 方 商业 活动 直接 提供 市 场 服务 ， 该 
报 利用 让 告 版 面 和 婚庆 告示 维持 它 现 有 的 市 场 数据 库 。 


1.4.5 商业 数据 挖掘 软件 产品 已 经 易于 使 用 


从 新 的 算法 首次 出 现在 学 术 杂 志和 令 人 兴奋 的 会 议 ， 到 使 用 这 些 算法 的 商业 软件 变 为 可 
用 ， 总 有 一 个 时 间 延 迟 。 从 第 一 个 可 用 产品 到 其 被 普遍 接受 ， 还 有 另 一 个 时 间 延 迟 。 对 数据 
挖 据 来 说 ， 目 前 已 经 到 了 普遍 可 用 和 普遍 接受 的 阶段 。 

本 书 讨论 的 很 多 技术 最 初出 现在 统计 、 人 工 智能 和 机 器 学 习 领 域 。 经 过 大 学 和 政府 实验 
室 的 几 年 研究 之 后 ， 一 种 新 技术 开始 被 商业 部 门 的 一 些 早期 接纳 者 使 用 。 在 新 技术 的 这 一 发 
展 时 期 ， 软 件 一 般 是 以 源 代 码 的 形式 出 现 ， 你 可 以 通过 FTP 找到 并 编译 ， 通 过 阅读 作者 的 
博士 论文 领会 如 何 使 用 它 。 只 有 一 些 先驱 者 采用 新 的 技术 成 功 之 后 ， 才 开始 出 现 带 有 使 用 手 
册 和 在 线 帮 助 的 真正 产品 。 

现在 ， 很 多 新 技术 正在 开发 中 ， 然 而 扩展 和 完善 已 存在 的 技术 更 需要 投入 大 量 工作 。 本 
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书 讨论 的 各 种 技术 均 已 用 于 商业 软件 产品 ， 尽 管 没有 一 个 单一 的 产品 能 够 包含 所 有 这 些 
技术 。 
1.5 目前 如 何 使 用 数据 挖掘 

展示 这 些 重要 的 数据 挖掘 案例 旨 在 说 明 本 书 讨论 的 数据 挖掘 技术 的 广泛 应 用 。 这 些 简 介 
的 目的 是 传达 本 领域 的 一 些 令 人 兴奋 的 发 展 和 一 些 在 自己 的 工作 中 有 益 地 使 用 数据 挖掘 的 可 
能 方法 。 
1.5.1 超级 市 场 成 为 信息 经 纪 人 


销售 点 扫描 器 记录 了 顾客 购买 的 每 件 货物 ， 忠 诚 卡 计 划 把 这 些 购 买 与 个 人 用 户 相 关联 ， 
超级 市 场 如 今 拥 有 很 多 客户 信息 。 

Safeway 是 美国 首先 开始 利用 这 项 技术 成 为 信息 经 纪 人 的 连锁 超市 之 一 。 Safeway 直接 
从 顾客 那里 购买 住址 和 人 口 统计 数据 ， 作 为 回报 ， 客 户 购物 时 使 用 他 的 忠诚 卡 得 到 一 定 折 
扣 。 为 获得 忠诚 卡 ， 购 物 者 自愿 披露 可 以 被 利用 的 那些 个 人 信息 。 

从 那 时 起 ， 购 物 者 每 次 出 示 忠 诚 卡 ， 其 交易 历史 就 在 某 处 的 数据 仓库 中 被 更 新 。 每 去 商 
店 一 次 ， 购 物 者 就 提供 给 销售 商 更 多 关于 他 们 的 情况 。 超 级 市 场 本 身 可 能 对 群体 模式 比 对 容 
户 的 个 人 行为 更 感 兴趣 ， 如 哪些 品种 一 起 销售 更 好 ， 哪 些 应 该 放 在 同一 个 货架 上 。 摆 放 在 商 
店 过 道 的 产品 的 制造 商 对 收集 到 的 关于 个 体 的 信息 最 感 兴趣 。 

当然 商店 向 顾客 保证 为 收集 的 这 些 信 息 保密 ， 事 实 也 确实 如 此 。 连 锁 超 市 不 是 把 经 常 购 
买 百事 可 乐 的 用 户 名 录 卖 给 可 口 可乐 公 司 ， 而 是 根据 连锁 店 所 理解 的 客户 购买 习惯 和 客户 提 
供 的 数据 ， 向 某 种 特定 产品 的 供应 商 出 售 可 能 的 客户 接触 途径 。 对 每 个 客户 名 字 ，Safeway 
向 供应 商 收取 几 分 钱 ， 以 使 供应 商 的 优惠 券 或 特殊 促销 恰好 能 到 达 合 适 的 客户 手中 。 因 为 优 
惠 券 兑换 也 是 购物 者 交易 历史 文件 的 一 条 记录 ， 目 标 群 的 精确 响应 速度 也 是 某 种 记录 。 另 
外 ， 一 个 特定 用 户 响应 某 个 优惠 或 者 不 予 回应 ， 都 成 为 未 米 预测 模型 的 输入 数据 。 

同样 地 ，American Express 公司 和 其 他 支付 卡 提供 商 也 出 售 在 账单 信封 内 或 信封 上 的 广 
告 空间 。 他 们 对 广告 空间 所 收费 用 的 高 低 ， 直 接 与 他 们 正确 识别 用 户 可 能 对 广告 有 回应 的 能 
力 有 关 ， 这 也 正 是 数据 挖掘 的 实用 之 处 。 


1.5.2 基于 推荐 的 商业 


英国 的 Virgin Wines 酒店 通过 其 网 站 www.virginwines.com 直接 向 消费 者 出 售 葡 萄 酒 。 
当 新 客户 首次 访问 站 点 时 ， 需 要 完成 一 份 调查 表 “ 葡 萄 酒 向 导 ”， 要 求 每 个 客户 评价 不 同类 
型 的 葡 欧 酒 。 这 种 分 级 用 于 创建 用 户口 味 的 简 档 。 在 简 档 创 建 期 间 ， 葡 萄 酒 向 导 尝 试 着 推荐 
不 同 的 产品 ， 消 费 者 有 机 会 选择 是 或 否 来 细 化 简 档 。 当 葡萄 酒 向 导 结 束 时 ， 站 点 已 经 知道 消 
费 者 的 足够 信息 ， 可 以 开始 向 其 推荐 消费 了 。 

随 着 时 间 的 推移 ， 站 点 追踪 客户 实际 购买 的 物品 ， 使 用 这 些 信 息 来 更 新 其 简 档 ， 消 费 者 
可 以 在 任何 时 间 重 新 使 用 葡萄 酒 向 导 更 新 其 简 档 。 他 们 也 可 以 通过 点 击 “我 的 酒 窗 ” 浏 览 过 
去 的 购买 情况 。 消 费 者 曾经 购买 或 者 在 站 点 上 评价 的 任何 一 种 酒 都 会 出 现在 酒 窜 中 。 消 费 者 
可 以 在 任何 时 间 评 价 或 重新 品评 过 去 购买 的 东西 ， 提 供 更 多 反馈 给 推荐 系统 。 通 过 这 些 推 
荐 ， 站 点 可 以 为 消费 者 提供 他 们 喜欢 的 新 葡萄 酒 。 这 给 出 了 像 Wine Cask 这 样 的 商店 建立 忠 
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诚 客 户 关 系 的 有 效 方式 。 
1.5.3 交叉 销售 


USAA 是 一 个 市 场 定 位 面向 现役 和 退役 军人 及 其 家 庭 的 保险 公司 ， 致 力 于 基于 信息 的 营 
销 ， 包 括 对 普通 客户 拥有 产品 数量 的 两 倍 使 用 数据 挖掘 技术 。USAA 拥有 客户 详细 信息 记 
录 ， 使 用 数据 挖掘 预测 他 们 处 于 生命 周期 的 哪个 阶段 ， 很 可 能 需要 哪些 产品 。 

另 一 个 使 用 数据 挖掘 改进 交叉 销售 (cross-selling) 能 力 的 公司 是 Fidelity 投资 公司 。Ei- 
delity 维护 着 一 个 拥有 所 有 零售 客户 信息 的 数据 仓库 。 这 些 信 息 用 于 构造 数据 挖掘 模型 ， 预 
测 另外 哪些 Fidelity 的 产品 可 能 使 消费 者 感 兴趣 。 当 一 位 客户 打 电 话 给 公司 时 ， 销 售 代表 的 
屏幕 正确 地 显示 出 该 向 哪里 引导 谈话 。 

除了 改进 公司 的 交叉 销售 能 力 之 外 ，Fidelity 的 零售 市 场 数据 仓库 还 允许 金融 服务 职能 
部 门 建立 模型 ， 研 究 究竟 是 什么 造就 忠实 的 消费 者 ， 进 而 增强 消费 者 的 持久 力 。 这 些 模型 曾 
经 一 度 促 成 Fidelity 保留 支付 服务 ， 和 否则 该 服务 可 能 早已 被 取消 。 与 普通 消费 者 相 比 ， 使 用 
该 项 服务 的 人 更 不 容易 把 他 们 的 业务 转向 其 他 竞争 对 手 ， 而 取消 这 项 服务 意味 着 把 有 利 可 图 
的 忠实 消费 者 群体 推 到 其 他 公司 。 

客户 关系 管理 的 中 心 原 则 是 ， 与 市 场 份额 相 比 ， 关 注 “ 钱 包 份额 ”或 者 “消费 者 份额 ” 
〈 即 每 位 消费 者 的 业务 数量 ) 可 以 获得 更 多 利润 。 从 金融 服务 业 到 重工 业 ， 很 多 创新 型 的 公 
司 正在 使 用 数据 挖掘 来 增加 每 位 消费 者 的 价值 。 


1.5.4 抓 住 好 的 客户 


客户 可 以 用 极 小 的 代价 自由 改变 供应 商 ， 竞 争 对 手 渴望 引诱 客户 到 自己 的 公司 ， 所 以 任 
何 行业 都 需要 利用 数据 挖掘 提升 客户 的 持久 性 。 银 行 称 为 内 耗 ， 无 线 电话 公司 称 为 搅局 。 无 
论 称 为 什么 ， 这 都 是 每 一 个 企业 面临 的 重要 问题 。 通 过 了 解 谁 可 能 离开 和 为 什么 离开 ， 针 对 
好 的 客户 提出 合适 的 手段 ， 可 以 形成 保证 客户 持久 性 的 方案 。 

在 成 熟 的 市 场 ， 引 入 一 个 新 客户 往往 比 保持 一 个 现 有 客户 代价 更 高 。 然 而 用 于 保持 消费 
者 的 动机 往往 代价 昂贵 。 哪 些 消费 者 应 该 得 到 该 激励 ? 哪些 消费 者 即使 不 需要 这 个 诱因 也 可 
保持 ? 应 该 允许 哪些 消费 者 离开 ? 数据 控 据 是 断定 这 些 情 况 的 关键 。 


1.5.5 淘汰 差 的 客户 


在 很 多 行业 ， 为 有 些 客 户 的 付出 高 于 客户 的 回报 ， 这 可 能 是 那些 耗费 了 大 量 的 客户 支持 
资源 而 购买 量 不 足 的 客户 ， 或 者 是 一 些 持 有 信用 卡 而 极 少 使 用 的 讨厌 的 家 伙 ， 当 他 们 购买 
时 ， 当 然 会 付 清 全 部 款项 ， 但 银行 仍然 必须 每 月 给 他 们 邮寄 对 账单 。 更 糟 的 情况 ， 他 们 可 能 
是 那些 已 申请 破产 却 从 你 很 多 钱 的 人 。 

用 于 发 现 最 有 价值 顾客 的 数据 挖掘 技术 ， 同 样 也 适 于 发 现 应 该 拒绝 哪些 人 的 贷款 ， 哪 些 
人 应 该 等 待 最 长 时 间 ， 娜 些 人 应 该 总 是 被 安排 在 靠近 发 动机 的 中 间 座 位 (或 者 这 只 是 我 们 的 
偏执 状况 ?)。 


1.5.6 变革 一 个 行业 


1988 年 ， 信 用 卡 发 行者 拥有 的 客户 信息 是 他 们 最 宝贵 的 财富 ， 这 一 论点 被 称 为 是 革命 
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性 的 创意 。Richard Fairbank 和 Nigel Morris 游说 了 25 家 银行 ， 直 到 Signet 银行 答应 试 试 这 
个 创意 。 

Signet 通过 各 种 雁 道 收集 行为 数据 ， 用 于 创建 预测 模型 。 利 用 这 些 模型 ， 开 办 了 非常 成 
功 的 转账 系统 ， 改 变 了 信用 卡 行业 的 工作 方式 。Signet 在 1994 年 推出 了 Capital One 银行 卡 
业务 ， 目 前 已 跻身 为 前 十 位 信用 卡 发 行商 。Signet 大 胆 使 用 数据 控 气 技术 加 速 了 公司 的 成 
长 ， 同 时 也 保证 了 Capital One 在 本 行业 中 最 低 的 贷款 损失 率 。 目 前 数据 控 气 技术 已 经 成 为 
所 有 主要 信用 卡 发 行商 的 市 场 策略 的 核心 内 容 。 

信用 卡 部 门 已 经 率先 在 银行 收费 中 使 用 数据 挖掘， 其 他 部 门 也 不 落后 。Wachovia 是 一 
个 总 部 设 在 北 卡 罗 莱 纳 州 的 大 银行 ， 它 已 经 将 数据 挖掘 技术 用 于 预测 哪些 客户 会 在 近期 搬 
家 。 对 大 多 数 人 来 说 ， 搬 到 另外 一 个 镇 上 的 新 家 后 ， 一 般 会 关闭 旧 的 银行 账户 而 选择 另外 的 
银行 新 开 一 个 账户 。Wachovia 推出 了 一 些 举措 来 改善 客户 的 持久 性 : 找 出 要 搬家 的 客户 ， 
然后 让 他 们 很 容易 地 把 业务 转 到 当地 的 Wachovia 支行 。 通 过 这 样 的 措施 ， 不 仅 客 户 持 久 度 
有 了 显著 提高 ， 还 开发 出 了 利润 可 观 的 再 分 配 业 务 : 除了 建立 新 的 银行 账户 以 外 ，Wachovia 
现在 还 在 新 的 支行 办 理 代 缴 煤气 费 、 电 费 以 及 其 他 相关 服务 。 


1.5.7 其 他 


这 些 应 用 可 以 让 你 感觉 利用 数据 挖掘 技术 可 以 完成 哪些 工作 ， 但 这 尚未 包罗 所 有 可 能 的 
应 用 。 本 书 中 讲 到 的 数据 挖掘 技术 已 经 被 用 于 发 现 类 星体 、 设 计 军 服 、 查 出 号 称 “ 超 纯 ” 的 
伪劣 二 次 压榨 橄榄 油 、 教 机 器 大 声 朗 读 以 及 识别 手写 字 等 。 训 无疑 加 ， 它 们 在 本 世纪 中 还 会 
继续 被 用 于 处 理 那些 正在 成 长 或 繁荣 的 业务 。 在 下 一 章 中 ,我 们 会 讨论 在 商业 活动 中 如 何 通 
过 数据 挖掘 的 良性 循环 来 应 用 数据 挖掘 技 术 。 


1.6 小 结 


数据 挖掘 是 客户 关系 管理 系统 分 析 的 重要 组 成 部 分 之 一 。 客 户 关系 管理 系统 分 析 的 目标 
是 最 大 程度 地 再 创造 这 种 紧密 的 学 习 关 系 ， 使 得 运转 良好 的 小 企业 与 客户 合作 恰 快 。 公 司 与 
客户 的 交流 会 产生 大 量 的 数据 ， 这 些 数 据 一 般 是 由 交易 处 理 系统 (如 自动 售 货 机 、 电 话 交换 
机 记录 以 及 超市 的 扫描 器 文件 ) 收集 而 来 ， 然 后 将 这 些 数据 集中 、 清 理 、 汇 总 后 进 人 客户 数 
据 仓库 。 设 计 良 好 的 客户 数据 仓库 包含 客户 与 公司 交流 的 历史 记录 ， 成 为 公司 存储 内 容 的 一 
部 分 。 将 数据 挖掘 工具 用 于 处 理 这 些 历 史记 录 ， 可 以 帮助 公司 将 来 更 好 地 服务 于 客户 。 本 章 
给 出 了 几 个 使 用 数据 挖掘 的 商业 案例 ， 诸 如 优化 优惠 券 设计 、 推 荐 销售 、 交 叉 销售 、 客 户 保 
持 以 及 降低 信用 风险 等 。 

数据 挖掘 本 身 就 是 从 大 量 数据 中 发 现 有 用 模式 和 规则 的 过 程 。 本 章 中 引 人 并 定义 了 6 个 
常见 的 数据 控 据 任务 : 分 类 、 人 估计、 预测、 关联 分 组 、 聚 类 和 建立 简 档 。 本 书 的 其 余部 分 分 
析 了 完成 这 6 类 任务 的 许多 数据 挖掘 算法 和 技术 。 这 些 技术 必须 成 为 大 型 商业 活动 的 有 机 组 
成 后 ， 数 据 挖掘 才能 成 功 进行 。 这 种 一 体 化 的 过 程 就 是 下 一 章 的 主要 内 容 。 
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第 2 章 数据 挖掘 的 恨 性 循环 


19 世纪 初 ， 纺 织 厂 成 为 工业 革命 的 成 功 题材 。 为 了 利用 水 力 ， 英 格 兰 和 新 英格兰 发 展 
中 城镇 和 都 市 的 纺织 厂 都 沿 河 而 建 。 奔 腾 的 河水 驱动 架 在 河上 的 水 轮 ， 从 而 驱动 着 纺 纱 、 针 
织 和 编织 机 器 。 在 长 达 一 个 世纪 的 时 间 里 ， 水 力 驱 动 的 纺织 机 械 一 直 是 工业 革命 的 标志 。 

现在 ， 商 业界 已 发 生 巨 变 ， 老 厂区 已 经 成 为 历史 古迹 ， 沿 河 而 建 的 老 厂 房 变 成 了 仓库 、 
大 型 购物 中 心 、 艺 术 馆 和 计算 机 公司 。 就 连 制 造 公 司 ， 在 服务 行业 创造 的 价值 也 时 常 超过 货 
物 本 身 的 价值 。 一 家 著名 的 国际 水 泥 制 造 商 〈Cemex 公司 ) 的 广告 ， 给 我 们 留 下 了 很 深 的 印 
象 。 其 创意 是 : 把 混凝土 当 作 服 务 。 那 则 广告 不 是 集中 宣传 水 泥 的 质量 、 价 格 和 实用 性 ， 而 
是 在 河上 画 了 一 座 桥 ， 展 示 水 泥 是 服务 的 理念 : 人 与 人 之 闻 通 过 “水 泥 ” 建 成 的 桥梁 人 披 此 沟 
通 。 混 将 土 能 当 作 服务 吗 ? 这 可 是 一 个 非常 新 颖 的 想法 ! 

使 用 电力 或 机 械 力 不 再 是 成 功 的 标准 。 对 于 大 规模 的 产品 销售 ， 客 户 交 互 数据 就 像 是 新 
型 水 力 资 源 。 由 于 服务 业 和 制造 业 之 间 的 界线 正 变 得 模糊 不 清 ， 知 识 除了 驱动 制造 业经 济 的 
涡轮 ， 也 驱动 着 服务 业经 济 的 涡轮 。 从 数据 处 理 得 到 的 信息 ， 用 于 对 客户 进行 划分 可 帮助 市 
场 营 销 ; 用 于 改进 产品 设计 可 以 满足 客户 的 实际 需求 ; 用 于 了 解 和 预测 客户 的 倾向 ， 可 以 改 
善 资源 配置 。 

数据 被 看 做 是 大 多 数 公司 核心 业务 处 理 的 中 心 内 容 。 无 论 是 哪 一 个 行业 〈 比 如 零售 、 电 
信 、 制 造 、 公 共 服 务 、 和 运输、 保险、 信用 卡 和 银行 业 等 ) 的 操作 系统 中 ， 任 何 交易 都 生成 数 
据 。 各 种 外 部 来 源 使 系统 内 数据 大 量 增 加 ， 这 些 外 部 来 源 包 括 零售 客户 的 人 口 统计 学 数据 、 
生活 方式 、 信 用 信息 ， 以 及 企业 客户 的 信用 、 财 务 、 交 易 信 息 。 数 据 挖掘 的 目标 就 是 ， 在 这 
些 数 以 百 万 亿 计 的 字 节 中 ， 发 现 潜 在 有 价值 的 模式 (pattern)。 但 是 ， 仅 仅 找到 模式 还 不 够 。 
你 必须 对 这 些 模式 做 出 反应 ， 对 它们 进行 处 理 ， 最 终 将 数据 转化 为 信息 ， 将 信息 转化 为 行 
动 ， 最 后 将 行动 转化 为 价值 。 简 而 言 之 ， 这 就 是 数据 挖掘 的 良性 循环 。 

为 实现 数据 挖掘 的 这 个 目标 ， 数 据 挖掘 需要 成 为 一 个 实质 性 的 业务 过 程 ， 并 且 融 人 到 市 
场 调查 、 销 售 、 客 户 支持 、 产 品 设计 和 库存 控制 等 其 他 过 程 。 和 良性 循环 就 是 使 数据 挖掘 更 深 
地 植 根 于 业务 的 环节 之 中 ,将 焦点 由 探索 机 制 转 到 以 发 现 为 基础 的 行动 上 。 纵 览 本 章 和 全 
书 ， 我 们 将 从 数据 控 掘 的 探讨 中 获得 可 操作 的 (actionable) 结果 。 

市 场 营销 文献 使 得 数据 挖掘 显得 如 此 容易 ， 即 ， 只 要 运用 学 术 界 精英 创造 的 自动 化 算 
法 ， 如 神经 网 络 〈neural network) 、 决 策 树 和 遗传 算法 〈genetic algorithm) ， 你 就 可 以 走向 
无 数 的 成 功 。 尽 管 算法 重要 ， 但 数据 挖掘 的 解决 方案 并 不 仅仅 是 一 系列 有 效 的 技术 和 数据 结 
构 。 各 种 技术 必须 用 于 合适 的 领域 ， 作 用 于 正确 的 数据 。 数 据 挖 据 的 良性 循环 是 一 个 反复 学 
习 的 迭代 过 程 ， 该 过 程 以 上 次 结果 为 依据 ， 随 着 时 间 的 推移 而 完善 。 成 功 地 运用 数据 ， 可 以 
使 一 个 企业 由 被 动 反应 转变 为 先发制人 ， 这 就 是 数据 挖掘 的 良性 循环 〈virtuous cycle) 的 作 
用 。 本 书 作者 就 是 应 用 这 些 技术 去 争取 最 大 收益 的 ， 后 面 将 进一步 描述 这 些 技 术 。 

本 章 从 描述 一 个 应 用 数据 挖掘 技术 的 简短 案例 开始 ， 一 直到 解决 现实 商务 问题 的 案例 结 
束 。 利 用 案例 研究 来 介绍 数据 挖掘 的 良性 循环 。 数 据 控 气 表现 为 商业 活动 过 程 中 一 个 持续 的 
过 程 ， 一 个 数据 挖掘 项 目的 结果 变 成 下 一 个 项 目的 输入 。 每 个 数据 挖掘 项 目 都 经 过 四 个 主要 
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阶段 ， 它 们 一 起 构成 了 良性 循环 的 完整 过 程 。 在 介绍 完 这些 阶 段 之 后 ， 将 采用 案例 研究 进 一 


2.1 商业 数据 挖掘 案例 研究 


从 前 ， 一 家 银行 存在 一 个 业务 难题 ， 他 们 的 特别 的 商业 产品 
能 吸引 好 的 客户 。 为 解决 这 个 问题 ， 银 行 可 以 采取 几 种 办 法 。 

比如 ， 银 行 可 以 降低 贷款 利率 。 如 果 这 样 ， 银 行 能 吸引 更 多 的 客户 ， 但 是 以 降低 利润 为 
代价 来 增加 市 场 份额 。 如 果 降 低 贷款 利率 ， 现 有 客户 也 可 能 转向 更 低 贷款 利率 ， 进 一 步 降 低 
了 这 家 银行 的 利润 。 更 糟糕 的 是 ， 假 若 开 始 时 确定 的 利率 具有 合理 的 竞争 人性， 降低 利率 可 能 
会 招致 恶意 的 客户 不 忠实 客户 。 竞 争 对 手 略 施 小 恩 小 惠 ， 便 可 轻易 将 他 们 收买 。 下 面 
“赚钱 或 者 赔钱 ”部 分 中 所 谈 到 的 就 是 挽留 忠实 客户 的 问题 。 

这 个 例子 中 ,在 经 历 了 几 次 直接 邮寄 活动 所 产后 的 邻 人 失望 的 结果 后 ， 美 国 银行 急于 扩 
张 家 庭 抵押 贷款 的 业务 量 。 美 国 消费 者 资产 协会 (NCAG) 决定 采用 数据 挖掘 来 解决 这 个 问 
题 ， 这 是 引入 数据 挖掘 良性 循环 的 一 个 很 好 的 案例 。 (在 此 要 感谢 Larry Scroggins 先生 人 允许 
我 们 使 用 他 撰写 的 《美国 银行 案例 分 析 》 一 书 的 部 分 资料 。 我 们 也 从 与 Hyperparallel 资料 分 
析 公 司 的 Bob Flynn、Lounette Dyer 和 Jerry Modes 的 谈话 中 受益 匪 浅 。) 


2.1.1 识别 商务 挑战 


美国 银行 需要 向 客户 做 好 家 庭 抵押 贷款 的 宣传 工作 。 根 据 一 般 常 识 和 商业 顾问 的 意见 ， 
他 们 达成 以 下 共识 ; 

“。 有 和 孩子 上 大 学 的 家 长 ， 想 通过 家 庭 抵押 贷款 借款 支付 学 费 。 

“ 高 收入 但 收入 不 稳定 的 人 ， 想 通过 家 庭 抵押 贷款 使 其 收入 削 峰 填 谷 。 


赚钱 或 者 赔钱 ? 

家 庭 抵押 贷款 产品 的 利率 可 以 给 银行 带 来 收益 ， 但 是 有 时 公司 要 与 亏损 的 服务 项 目 作 寺 
争 。 例 如 ，Fidelity 投资 公司 曾 打算 将 支付 服务 系统 进行 拍卖 ， 因 为 该 服务 系统 一 直 处 于 乞 
损 状态 。 但 调查 证 实 ，Fidelity 投资 公司 多 数 患 实 的 、 有 利 可 赚 的 客户 在 使 用 支付 服务 系统 ， 
最 终 的 分 析 挽救 了 服务 系统 。 虽 然 支 付 服务 系统 亏损 ，Fidelity 投资 公司 却 赁 借 这 些 客户 的 
其 他 账户 拘 了 许多 钱 。 客 户 音 竟 信 任 他 们 的 金融 机 构 ， 让 他 们 帮助 支付 三 单 ， 该 机 构 对 这 类 
客户 有 很 高 的 信用 度 。 

出 减 这 样 的 增值 服务 项 目 ， 导 致 最 好 的 客户 到 别处 寻找 较 好 的 服务 ， 这 样 做 无 意 之 中 降 
低 了 公司 的 收益 。 

家 庭 抵押 贷款 产品 的 市 场 营销 文献 反映 了 潜在 客户 的 观点 ， 电 信 市 场 的 客户 列表 清单 也 
证 实 了 类 似 观点 。 这 些 观点 解释 了 前 面 提 到 的 那些 令 人 失望 的 结果 。 


2.1.2 应 用 数据 挖掘 


美国 银行 与 来 自 Hyperparallel 公司 (一 个 数据 挖掘 工具 供应 商 ， 后 来 被 Yahoo 公司 收 
购 ) 的 数据 挖掘 顾问 一 起 工作 ， 决 定 用 一 系列 数据 挖掘 技 术 来 解决 这 个 问题 。 他 们 不 缺乏 数 
据 ， 多 少年 来 ， 美 国 银行 一 直 将 其 数 百 万 的 零售 客户 数据 存储 在 一 个 巨大 的 关系 数据 库 中 ， 


家 庭 抵押 贷款 额度 ， 不 
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这 个 数据 库 安 装 在 美国 NCRZTeradata 公司 生产 的 大 型 并 行 计 算 机 上 。 由 42 个 记录 系统 提 
供 的 数据 被 簿 选 、 转 换 (transform) 、 调 整 后 ， 馈 人 到 公司 数据 仓库 。 美 国 银 行 利用 这 个 系 
统 ， 能 参透 与 银行 保持 联系 的 每 位 客户 的 所 有 关系 。 

这 个 历史 数据 库 确实 名 副 其 实 ， 数 据 库 中 的 有 些 记 录 可 以 追溯 到 1914 年 ! 近年 来 的 客 
户 记录 大 约 有 250 个 字段 ， 除 银行 内 部 数据 外 ， 还 包括 人 口 统计 信息 字段 ， 例 如 收入 、 子 女 
数量 和 家 庭 类 型 。 客 户 的 这 些 属性 汇集 成 客户 独一无二 的 特征 ， 然 后 采用 Hyperparallel 公司 
的 数据 挖掘 工具 进行 分 析 。 

决策 树 导出 划分 现 有 银行 客户 的 规则 ， 把 客户 分 为 两 类 ， 即 可 能 或 不 可 能 对 提供 家 庭 抵 
押 贷 款 做 出 反应 。 经 反复 检验 数 以 千 计 购买 产品 和 数 以 千 计 没 有 购买 产品 的 客户 数据 ， 决 策 
树 最 终 获 得 判定 不 同类 客户 之 间 差 别 的 规则 。 一 有 旦 发 现 这些 规 则 ， 利 用 得 到 的 模型 可 以 给 每 
个 潜在 客户 记录 增加 另 一 个 属性 。 这 个 属性 即 好 的 潜在 客户 标志 ， 就 是 由 数据 挖掘 模型 生 
成 的 。 

下 一 步 使 用 后 续 的 模式 查找 工具 ， 可 以 确定 客户 什么 时 候 最 有 可 能 需要 这 种 贷款 。 这 种 
分 析 的 目标 就 是 发 现 过 去 曾经 频繁 处 理 成 功 诱因 的 一 系列 事件 。 

最 后 ， 应 用 涌 类 工具 自动 将 具有 相似 属性 的 客户 分 成 不 同 组 。 在 某 一 点 上 ， 这 个 工具 发 
现 了 14 个 客户 复 ， 其 中 许多 徐 似 乎 没有 特别 的 兴趣 。 但 是 有 一 个 秘 的 兴趣 十 分 浓厚 。 这 个 
复 具 有 两 个 十 分 令 人 费解 的 特点 : 

。 这 个 复 中 39% 的 人 同时 拥有 企业 和 个 人 账户 。 

。 根据 决 策 树 分 类 ， 这 个 艇 中 的 客户 占 到 了 家 庭 抵押 贷款 可 能 响应 者 的 四 分 之 一 。 

这 些 数据 提示 好 奇 的 数据 挖掘 者 ， 上 述 篮 中 的 客户 有 可 能 使 用 家 庭 抵 押 贷 款 来 从 事 商 业 
活动 。 

2.1.3 按照 结果 采取 行动 


利用 这 个 新 的 发 现 ， 美 国 消费 者 资产 协会 (NCAG) 和 银行 的 零售 分 支 机 构 联 合 采取 下 
列 行 动 : 他 们 组 织 市 场 调查 ， 与 客户 面谈 。 现 在 ， 银 行 又 增加 了 一 个 想 弄 明白 的 问题 , “ 贷 
款 收 入 将 被 用 于 从 事 商 业 活 动 吗 ?” 市 场 调查 的 结果 证 实 了 这 个 由 数据 挖掘 引出 的 问题 。 因 
此 ， 美 国 消费 者 资产 协会 打消 了 顾虑 ， 继 续 瞄 准 他 们 的 家 庭 抵押 贷款 营销 活动 。 

顺便 指出 ， 市 场 调查 和 数据 挖 据 时 常 被 应 用 于 类 似 的 目标 一 一 对 客户 获得 更 多 的 了 解 。 
尽管 市 场 调查 非常 有 成 效 ， 但 是 也 存在 一 些 缺 点 : 

“响应 者 〈responder) 不 可 能 代表 全 部 人 口 ， 也 就 是 说 ， 同 一 组 响应 者 会 有 偏差 ， 尤 其 

古 在 过 去 营销 工作 比较 集中 的 地 区 ， 这 样 就 会 形成 所 谓 的 机 会 样本 (opportunistic 


sample) 。 
。 客 户 ， 特 别 是 不 满意 的 客户 和 以 前 的 客户 ， 没 有 理由 帮助 市 场 调查 ， 或 者 诚实 对 待 市 
场 调查 。 


“ 对 任何 给 定 的 行为 ， 可 能 是 由 多 方面 原因 引起 的 。 例 如 ， 银 行 办 事 处 关闭 ， 客 户 支票 
被 退回 ， 以 及 在 ATM 机 前 长 时 间 等 候 等 原因 ， 都 有 可 能 使 客户 放弃 那 家 银行 。 尽 管 
时 序 可 能 更 重要 ， 但 是 市 场 调查 也 许 仅 仅 了 解 了 其 中 的 大 概 原 因 。 
尽管 存在 这 些 缺 点 ， 与 现 有 客户 和 以 前 的 客户 进行 面谈 ， 也 可 以 深入 了 解 其 他 任何 方式 
都 无 法 得 到 的 情况 。 美 国 银行 的 这 个 例子 说 明 ， 这 两 种 方法 可 以 彼此 互补 ， 和 谐 一 致 。 
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提示 : 当 对 现 有 客户 进行 了 市 场 调查 时 ， 运 用 数据 挖 据 技 术 ， 把 已 经 掌握 的 客户 信息 

考虑 在 内 是 一 个 不 错 的 主意 。 
2.1.4 测试 效果 

美国 银行 发 现 ， 由 于 新 近 采 取 了 一 些 活动 ， 家 庭 抵押 贷款 的 响应 率 从 0.7% 上升 到 7% 。 
按照 集团 副 总 经 理 Dave McDonald 的 说 法 ， 数 据 挖掘 结果 表明 ， 在 零售 业务 方面 银行 缺少 的 
re en 坚持 不 贿 地 执 
行 市 场 营销 计 蔽 ”他 设计 了 一 个 营 
销 过 程 的 循环 图 : 0 Ra- We 然后 产生 执行 和 


测试 计划 ， 这 些 计划 又 会 产生 使 营销 过 程 更 加 完善 的 另外 一 些 数据 。 简 而 言 之 ， 这 就 是 数据 
挖掘 的 良性 循环 。 


2.2 何谓 良性 循环 
美国 银行 的 例子 展示 了 数据 挖掘 的 良性 循环 实践 ， 图 2-1 显示 了 循环 的 四 个 步骤 : 


转换 数据 
(采用 数据 挖掘 技术 将 数据 
变 成 可 操作 的 信息 ) 
识别 x 烧 


(在 哪些 商业 机 会 中 ， 通 过 行动 
分 析 数 据 能 够 产生 价值 ) (按照 信息 采取 行动 ) 


.内 


图 2-1 数据 挖掘 的 良性 循环 注重 商业 结果 ， 而 不 仅仅 是 利用 先进 的 技术 


第 一 步 ， 识别 商务 问题 。 
第 二 步 ， 应 用 数据 挖掘 将 数据 变 成 可 操作 的 信息 。 


测试 结果 
(测试 工作 结果 ， 
完成 学 习 循环 ) 
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第 三 步 ， 按 照 信息 采取 行动 。 

第 四 步 ， 测 试 结果 。 

上 述 步 又 说 明 ， 成 功 的 关键 是 将 数据 挖掘 融 人 到 商业 过 程 ， 并 且 鼓 励 数 据 挖掘 人 员 和 使 
用 结果 的 商业 用 户 密切 配合 和 沟通 。 


2.2.1 识别 商业 机 会 


数据 挖掘 的 良性 循环 从 识别 正确 的 商业 机 会 开始 。 不 幸 的 是 ， 很 多 好 的 统计 师 和 能 力 强 
的 分 析 师 所 做 的 工作 ， 实 质 上 是 浪费 时 间 和 资源 ， 因 为 他 们 手头 的 工作 对 商业 活动 并 没有 帮 
助 。 优 秀 的 数据 挖掘 人 员 要 避免 出 现 这 种 情况 。 

主动 注重 实效 ， 将 会 避免 分 析 工 作 的 浪费 。 很 多 普通 的 商业 过 程 是 数据 挖掘 的 很 好 题材 。 

*。 规 划 新 产品 介绍 

。 策 划 直 接 营销 活动 

*。 了 解 客 户 流失 行为 

* 评 估 市 场 营 销 试验 的 结果 

通过 瞄准 不 同 群 体 ， 调 整 信息 等 手段 ， 让 企业 经 理 做 出 比较 有 水 平 的 决定 ， 这 都 是 数据 
挖掘 提升 现 有 商务 活动 业绩 的 例子 。 

为 了 避免 分 析 尝 试 的 浪费 ， 测 试 采取 任何 行为 所 造成 的 影响 也 是 很 重要 的 ， 这 可 以 判断 
数据 挖掘 工作 本 身 的 价值 。 如 果 我 们 不 能 测试 数据 挖 握 的 结果 ， 那 么 就 无 法 从 工作 结果 中 获 
得 经 验 ， 也 就 没有 上 性 循环 可 言 。 

对 商业 活动 中 过 去 的 尝试 等 工作 进行 测试 ， 也 会 发 现 数据 挖掘 的 机 会 : 

。 什 么 类 型 的 客户 对 上 次 活动 做 出 反应 ? 

*。 最 好 的 客户 在 哪儿 ? 

“在 自动 取款 机 前 长 时 间 等 待 ， 是 导致 客户 流失 的 原因 吗 ? 

。 好 的 客户 群体 使 用 客户 支持 系统 吗 ? 

。 应 该 与 Clorox 公司 生产 的 漂白 剂 一 起 捆绑 推销 什么 产品 ? 

开始 数据 挖掘 工作 的 另 一 个 好 的 办 法 就 是 会 见 商 务 专家 。 从 事 商业 活动 的 人 们 可 能 不 熟 
悉数 据 挖 气 ， 他 们 也 可 能 不 懂得 如 何 按照 数据 挖掘 结果 采取 行动 。 这 种 会 面 ， 既 是 专家 向 企 
业 解 释 数 据 挖 掘 价值 的 过 程 ， 也 可 为 双向 交流 提供 平台 。 

我 们 曾经 参加 过 一 家 电信 公司 的 系列 会 面 活动 ， 目 的 是 讨论 分 析 呼 叫 详细 记录 (每 位 客户 
已 经 呼叫 的 记录 ) 的 价值 。 在 其 中 的 一 次 会 面 中 ， 与 会 者 不 能 理解 这 些 事情 到 底 有 什么 用 处 。 
后 来 ， 一 位 同行 指出 ， 呼 叫 数据 中 隐 含 着 客户 在 家 使 用 传真 机 的 信息 (具体 细 节 讨 论 参 见 第 
10 章 链 接 分 析 )。 滴 答 ! 使 用 传真 机 是 人 们 是 否 在 家 工作 的 一 个 很 好 线索 。 并 且 利 用 这 个 信 
息 ， 可 以 设计 一 个 针对 在 家 工作 群体 的 产品 包 。 没 有 我 们 的 提示 ， 这 类 销售 企业 决 不 会 考虑 通 
过 研究 数据 ， 发 现 这 个 重要 的 信息 。 将 技术 和 商业 结合 起 来 ， 使 极 有 价值 的 商机 突现 出 来 。 

提示 : 当 和 商业 用 户 谈论 数据 挖掘 机 会 时 ， 一 定 要 记 住 ， 他 们 关注 的 是 商业 问题 而 

不 是 技术 和 算法 。 要 让 技术 专家 关注 技术 问题 ， 商 务 专家 关注 商业 问题 。 


2.2.2 挖掘 数据 
数据 挖掘 ， 即 本 书 的 核心 所 在 ， 就 是 将 数据 转化 成 可 操作 的 结果 。 成 功 的 数据 挖掘 是 让 数 
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据 有 商业 价值 ， 而 不 是 运用 特别 算法 或 者 工具 。 大 量 的 陷阱 干扰 着 数据 挖 气 结 果 的 应 用 能 力 : 

。 坏 的 数据 格式 ， 例 如 ， 在 结果 中 客户 的 地 址 不 包含 邮政 编码 

。 混 淆 数据 字段 ， 例 如 ， 在 一 个 系统 中 ， 发 送 日 期 的 本 意 是 “计划 发 送 日 期 ”， 而 在 另 

一 个 系统 中 却 是 “实际 发 送 日 期 ” 

。 缺 乏 功能 性 ， 例 如 ， 呼 叫 中 心 的 申请 表 不 允许 有 个 性 化 的 注解 

。 法 律 分 歧 ， 例 如 ， 当 放弃 贷款 时 ， 必 须 提 供 法 律 依据 〈 并 且 “ 我 的 神经 网 络 告诉 我 就 

是 这 样 ”是 不 被 接受 的 ， 要 讲法 律 依据 ) 

。 机 构 因素 ， 因 为 有 些 商 业 集团 不 希望 改变 他 们 的 运作 方式 ， 特 别 是 没有 动力 的 时 候 

。 缺乏 时 效 性 ， 因 为 结果 出 来 的 太 晚 ， 不 具有 可 操作 性 

正如 图 2-2 所 示 ， 数 据 来 源 多 样 ， 有 多 种 格式 ， 出 自若 干系 统 。 找 出 合适 的 数据 源 ， 将 
它们 汇总 在 一 起 ， 这 是 数据 挖掘 成 功 的 关键 。 每 一 个 数据 挖掘 项 目 都 有 数据 问题 : 不 一 致 的 
系统 、 表 格 的 关键 字 与 数据 库 不 匹配 、 间 隔 几 个 月 记录 会 被 重 写 等 。 对 数据 的 抱怨 往往 是 无 
法 做 任何 事情 的 第 一 借口 。 真 正 的 问题 应 该 是 “利用 已 有 的 数据 能 干什么 ?” 这 是 本 书后 面 


讨论 的 算法 会 讲 到 的 问题 。 
》， 汇总 ， 
孙 集 (aggregation)， 
视图 


人 口 统计 、 生 活 方式 
和 信贷 信息 的 外 部 来 源 


一] 
而 变化 的 历史 数据 一 人 |- 
三 二 


局 


若干 竞争 源 的 数据 
RE 天生 衣 这 二 YE - 守 人 CR 生 全 人- 二， 


操作 系统 


市 场 营销 概要 


图 2-2 ”数据 从 来 都 不 完整 清晰 。 数 据 以 各 种 形式 存在 ， 来 自 很 多 内 部 和 外 部 的 数据 源 
一 个 无 线 通信 公司 在 获得 一 台大 型 服务 器 和 数据 挖掘 软件 包 后 ， 曾 想 整 合资 源 ， 成 立 了 
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数据 控 掘 组。 在 后 期 ， 他 们 联系 了 数据 挖 气 人 员 来 帮助 公司 调查 数据 挖掘 的 机 会 。 在 这 个 过 
程 中 ， 我 们 发 现 ， 客 户 流失 的 一 个 关键 因素 是 过 度 通 话 : 在 第 一 个 月 期 间 ， 新 客户 打 电 话 太 
多 。 客 户 在 拿 到 第 一 份 话费 单 时 ， 有 时 是 下 一 个 月 的 中 间 ， 才 得 知 通话 过 度 。 客 户 那 时 已 经 
积累 了 大 笔 话 费 ， 十 分 不 高 兴 。 不 幸 的 是 ， 客 户 服务 机 构 也 必须 等 到 同样 的 清算 周期 时 ， 才 
发 现 客户 过 度 通话 。 也 就 是 说 ， 没 有 时 间 提 前 来 应 对 这 种 局 面 。 

然而 ， 初 期 的 数据 挖掘 组 有 很 多 资源 ， 并 且 已 经 识别 出 合适 的 数据 来 源 ， 利 用 某 些 相 对 
简单 的 程序 运算 ， 在 刚刚 出 现 过 度 通话 的 几 天 内 是 有 可 能 识别 这 些 客户 的 。 利 用 这 个 信息 ， 
客户 服务 中 心 能 联系 到 正 处 于 过 度 通话 风险 的 客户 ， 并 且 在 出 第 一 张 话 费 单 前 ， 将 这 些 客户 
转移 到 合适 的 话费 套餐 。 这 个 简单 的 系统 是 数据 挖掘 的 一 个 很 大 胜利 ， 仅 仅 因为 有 了 一 个 技 
术 水 平 高 、 装 备 软 硬件 和 具有 访问 权 的 数据 控 气 组， 他们 装配 了 这 个 关键 的 系统 ， 把 可 能 性 
变 成 了 现实 。 


2.2.3 采取 行动 


采取 行动 是 数据 挖 据 良 性 循环 的 目的 。 前 面 已 经 提 到 过 ， 行 动 可 以 有 很 多 不 同 的 方式 。 
数据 挖掘 提高 了 商务 决策 的 水 准 。 随 着 时 间 的 推移 ， 我 们 期 望 ， 更 高 水 平 的 决策 产生 更 好 的 
结果 。 

无 论 如 何 ， 行 动 通常 要 与 商务 活动 的 安排 相 一 致 

“ 通过 直接 邮寄 、 电 子 邮件 和 电话 推销 等 手段 ， 给 客户 和 潜在 的 客户 发 送信 息 ; 使 用 数 

据 挖 掘 ， 不 同 的 人 群 可 以 得 到 不 同 的 信息 

* 为 客户 服务 划分 优先 次 序 

。 调节 库存 水 平 ， 等 等 

数据 挖掘 的 结果 需要 馈 人 到 与 客户 接触 和 影响 客户 关系 的 商业 过 程 中 去 。 


2.2.4 测试 结果 


在 前 面 ， 已 经 强调 了 测试 结果 的 重要 性 。 尽 管 它 很 重要 ， 但 在 数据 控 掘 的 良性 循环 中 该 阶 
段 极 有 可 能 被 名 略 。 尽 管 测试 和 不 断 改 进 的 意义 被 广泛 认可 ,但 实际 上 往往 并 没 受到 应 有 的 重 
视 。 有 多 少 商 业 案 例 得 到 贯彻 执行 ? 实际 上 没有 人 回 过 头 来 了 解 现实 与 计划 匹配 得 到 底 怎么 
样 。 个 人 可 以 通过 采取 “比较 和 学 习 、 提 问 为 什么 计划 与 现实 匹配 或 不 匹配 、 愿 意 获知 早期 设 
想 是 个 错误 ”等 措施 ， 全 面 改进 自己 的 做 法 。 对 个 体 起 作用 的 方法 对 企业 同样 也 起 作用 。 

在 识别 商务 问题 的 时 候 ， 首 先 必须 考虑 结果 的 测试 。 怎 样 才能 测试 结果 呢 ? 为 激励 产品 
销售 ， 公 司 开展 赠送 优惠 券 活 动 ， 毫 无 疑问 要 测试 优惠 券 返 回 率 。 然 而 ， 持 优惠 券 的 购买 者 
可 能 本 来 无 论 如 何 都 打算 购买 该 产品 。 另 一 种 合适 的 度量 方法 是 在 特定 商店 或 地 区 增加 销售 
量 ， 这 种 增长 就 与 特定 车 销 工作 相 挂钩 。 由 于 这 些 方 法 需要 大 量 详尽 的 销售 信息 ， 做 出 这 种 
测试 可 能 是 困难 的 。 然 而 ， 如 果 目 标 就 是 要 增加 销售 量 ， 就 必须 有 直接 方法 测量 它 ， 否 则 的 
话 ， 营 销 工作 完全 可 能 变 得 “ 亲 闹 哄 哄 、 令 人 愤怒 和 毫 无 价值 "。 

也 许 这 种 市 场 营销 于 预 了 几 个 月 之 后 ， 包 含 概要 内 容 的 标准 报告 才 会 提交 出 来 。 即 使 这 
类 报告 中 含有 重要 信息 ， 销 售 经 理 也 可 能 不 能 从 报告 中 注意 到 这 些 重要 信息 。 要 理解 市 场 营 
销 活 动 对 客户 保持 度 的 影响 ， 就 要 更 长 时 间 地 追踪 已 经 采取 的 市 场 营 销 工作 的 结果 。 设 计 优 
和 良 的 联机 分 析 处 理 (Online Analytic Processing，OLAP) 技术 (在 第 1 章 中 将 专门 讨论 )， 
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对 销售 团队 和 销售 分 析 师 会 很 有 帮助 。 然 而 ， 对 于 一 些 问题 ， 可 能 需要 有 更 详细 的 信息 。 

把 每 次 数据 挖掘 的 尝试 作为 小 型 商业 个 案 来 考虑 ， 是 一 个 很 好 的 主意 。 通 过 比较 预期 结 
果 和 实际 结果 ， 可 以 为 下 一 个 良性 循环 周期 找 出 可 能 的 机 会 。 我 们 时 常 过 分 忙于 处 理 下 一 个 
以 至 于 没有 精力 测试 当前 尝试 的 成 功 状 况 ， 这 种 做 法 是 错误 的 。 每 次 数据 控 气 尝试 ， 

论 成 功 与 否 ， 都 会 对 下 一 次 的 尝试 提供 经 验 教 训 。 问 题 是 ， 需 要 测试 什么 和 如 何 进行 测 
这 些 结果 为 将 来 的 应 用 提供 最 好 的 素材 。 

作为 一 个 示例 ， 让 我 们 首先 从 测试 一 项 有 既定 获取 目标 的 市 场 营销 活动 开始 。 规 范 的 测 
试 指标 是 响应 率 : 既定 的 活动 对 象 当 中 多 少 人 有 实质 性 的 反应 ? 这 种 活动 会 收集 到 很 多 的 信 
息 。 对 这 种 获取 目标 的 市 场 营销 活动 来 说 ， 未 来 有 使 用 价值 的 一 些 问题 如 下 ， 

“ 该 活动 会 波及 到 或 带 来 可 赚钱 客户 吗 ? 

* 客户 如 期 望 的 那样 保留 住 了 吗 ? 

* 通过 此 项 活动 得 出 最 忠实 客户 的 特征 是 什么 ? 老 客 户 的 人 口 统计 分 析 档 案 可 以 用 于 潜 

在 客户 中 。 在 有 些 情 况 下 ， 这 种 分 析 应 该 限定 在 那些 由 外 部 来 源 提供 的 特征 ， 以 便 数 
据 挖掘 分 析 的 结果 能 成 为 实用 的 可 购买 的 客户 名 单 。 

" 这 些 客户 购买 其 他 产品 吗 ?” 企业 中 不 同 的 系统 是 否 能 发 现 一 个 客户 购买 多 种 产品 的 情 
况 ? 

“ 某 些 信息 或 产品 收 到 的 效果 是 否 比 其 他 的 好 ? 

" 活动 所 波及 的 客户 对 于 从 其 他 渠道 得 到 的 信息 有 反应 吗 ? 

所 有 这 些 测试 结果 都 能 为 将 来 的 决策 提供 依据 。 为 了 在 将 来 做 出 更 好 的 决策 ， 通 过 学 习 
过 去 的 事情 ， 数 据 控 据 信息 把 过 去 和 未 来 行为 联系 在 一 起 。 

一 项 特别 的 测试 是 终生 客户 价值 〈lifetime customer value)。 顾 名 思 义 ， 是 指 在 整个 客户 
关系 过 程 中 ， 对 客户 价值 的 大 致 估计 。 有 些 行业 已 经 开发 了 十 分 复杂 的 模型 用 于 估计 终生 客 
户 价值 ， 有 一 些 即使 没有 复杂 的 模型 ， 也 可 以 进行 短期 估计 (如 1 工 个 月 、6 个 月 和 1L 年 以 
后 )， 这 种 佑 计 也 被 证 明 是 非常 有 用 的 。 客 户 价值 将 在 第 4 章 详细 讨论 。 


2.3 良性 循环 环境 下 的 数据 挖掘 


一 家 有 代表 性 的 美国 大 型 区 域 电话 公司 拥有 数 百 万 客户 。 它 的 总 机 房 中 有 数 百 或 数 干 个 交 
换 机 ， 这 些 交 换 机 通常 分 布 在 几 个 州 ， 横 跨 多 个 时 区 。 每 个 交换 机 能 同时 处 理 数 千 个 电话 ， 包 
括 比 较 先进 的 功能 ， 如 呼叫 等 待 、 电 话 会 议 、 呼 叫 转移 、 语 音 邮件 和 数字 服务 。 在 已 经 开发 的 
最 复杂 计算 设备 中 ， 只 有 人 少数 制造 商 能 生产 这 种 交换 机 。 由 于 供应 商 不 同 ， 这 种 典型 的 电话 公 
司 一 般 拥有 多 个 版 本 的 不 同 交换 机 ， 其 中 的 每 一 台 交 换 机 对 每 次 通话 和 通话 尝试 以 自己 的 格式 
提供 大 量 数据 ， 其 数据 量 每 天 达 数 万 兆 字 节 。 另 外 ， 每 个 州都 有 影响 该 行业 的 地 方 规章 ， 更 不 
用 说 联邦 政府 还 经 常 调整 法 律 和 规章 。 再 有 ， 电话 公司 向 客户 提供 数 千 种 不 同 的 电话 套餐 ， 面 
向 客户 从 临时 用 户 到 财富 100 强 公司 不 等 ， 这 些 都 大 大 增强 了 数据 的 多 样 性 。 

账单 处 理 是 维持 企业 的 生计 所 在 ， 是 企业 主要 收入 来 源 ， 这 家 公司 或 任何 类 似 的 大 企业 
该 如 何 管理 账单 处 理 ?” 答案 很 简单 : 要 非常 小 心 ! 许多 公司 已 经 制定 了 详细 的 流程 来 实现 操 
作 的 标准 化 ， 他 们 有 管理 的 政策 和 程序 。 这 些 流程 是 强 有 力 的 ， 即 使 在 企业 重组 、 数 据 库 管 
理 员 休 假 、 计 算 机 暂时 停机 、 法 律 法 规 修 改 以 及 交换 机 升级 的 时 候 ， 账 单 照 样 会 送 到 客户 手 
里 。 假 如 一 个 企业 能 在 每 个 月 将 账单 准确 无 误 地 送 到 数 以 百 万 的 居民 、 企 业 和 政府 客户 手 


免费 领取 更 多 资源 V: 3446034937 


数据 抄 据 的 良性 循环 21 


中 ， 可 以 肯定 地 说 ， 该 企业 将 数据 挖掘 应 用 到 决策 过 程 应 该 是 件 非常 容易 的 事情 。 情 况 真是 
这 样 吗 ? 

大 型 企业 为 经 营业 务 ， 已 经 积累 了 几 十 年 开发 和 执行 关键 任务 应 用 程序 的 经 验 。 数 据 控 
掘 不 同 于 典型 的 操作 系统 (参见 表 2-1) ， 运 行 良好 的 操作 系统 所 需要 的 技巧 不 一 定 能 产生 
成 功 的 数据 挖掘 业绩 。 

表 2-1 数据 挖掘 系统 与 典型 商务 操作 系统 的 区 别 


典型 操作 系统 数据 挖掘 系统 
对 历史 数据 的 操作 和 报告 对 历史 数据 的 分 析 ， 时 常 作 用 于 最 近 的 数据 以 决定 未 来 的 
行为 
可 预测 和 周期 性 的 工作 流 ， 显 著 特 点 是 与 日 历 挂钩 不 可 预测 的 工作 流 ， 取 决 于 商务 和 市 场 营 销 需求 
使 用 有 限 的 、 企 业 范 围 的 数据 (一 般 来 说 ) 数据 越 多 ， 结 果 越 准确 


关注 商业 因素 〈 例 如 账户 、 地 区 、 产 品 代码 、 通 话 关注 可 操作 的 实体 ， 例 如 产品 、 客 户 、 销 售 地 区 
时 间 等 )， 而 不 是 客户 

响应 时 间 通 常 以 秒 / 训 秒 计 量 〈 用 于 交互 式 系统 )， 迁 代 过 程 ， 响 应 时 间 通 常 以 分 钟 或 小 时 计量 

而 等 待 报告 需 要 几 周 或 几 个 月 

数据 记录 系统 数据 复制 


可 描述 性 和 可 重复 性 创造 性 


首先 ， 数 据 挖 所 解决 的 问题 不 同 于 操作 问题 。 准 确 地 说 ， 数 据 挖 所 系统 并 不 试图 复制 以 
前 的 结果 。 事 实 上 ， 复 制 以 前 的 做 法 会 带 来 灾难 性 的 结果 ， 导 致 市 场 营销 活动 的 对 象 总 是 同 
一 群 人 。 通 过 分 析 数 据 ， 你 并 不 想 看 到 大 量 客 户 与 以 前 市 场 营销 活动 所 涉及 的 客户 特征 相 匹 
配 。 数 据 挖掘 的 过 程 需要 考虑 这 个 问题 ， 而 不 像 操 作 系统 那样 一 遍 一 遍 复制 同样 的 结果 一 一 
是 否 完成 通话 、 发 送 账单 、 授 权 信用 购买 、 跟 踪 库存 ， 或 是 其 他 无 休止 的 日 常 操作 。 

数据 控 气 是 一 个 创造 过 程 。 数 据 具 有 很 多 不 是 没 用 就 是 简单 描绘 当前 业务 策略 的 明显 相 
关 性 。 例 如 ， 一 家 大 型 零售 企业 的 数据 分 析 显示 ， 签 订 维 修 合同 的 人 也 极 有 可 能 购买 大 件 家 
具 。 如 果 零 售 企业 不 分 析 家 具 连 同 维修 合同 销售 的 有 效 性 ， 有 这 种 信息 比 没有 更 糟糕 一 一 待 
讨论 的 维修 合同 只 是 与 大 件 家 具 一 同 出 售 。 花 费 数 百 万 美元 购买 硬件 、 软 件 利 聘请 分 析 师 ， 
却 发 现 这 种 结果 ， 纯 粹 是 浪费 资源 ， 这 些 资 源 完全 可 以 应 用 到 商业 的 其 他 地 方 。 分 析 师 需要 
知道 什么 对 商业 有 价值 ， 并 且 知 道 为 了 获得 巨大 收益 如 何 整理 数据 。 

数据 挖 气 结 果 随 时 间 而 变化 。 模 型 渐渐 跟 不 上 时 代 的 变化 ， 最 终 变 得 毫 无 价值 。 原 因 之 
一 ， 就 是 数据 迅速 老化 ， 市 场 和 客户 也 瞬息 万 变 。 

数据 挖掘 向 其 他 可 能 需要 改变 的 过 程 提 供 反馈 。 商 界 做 出 的 决策 ， 时 常 影响 当前 的 过 程 
以 及 与 客户 的 互动 。 通 常情 况 下 ， 观 察 数据 会 发 现 操作 系统 的 下 疫 。 修 正 这 些 刺 狂 可 以 增进 
对 未 来 客户 的 了 解 。 

本 章 其 余部 分 再 举 出 一 些 实 用 的 数据 挖掘 良性 循环 的 例子 。 


2.4 移动 通信 公司 建立 恰当 的 联系 


无 线 通 信行 业 竞争 非常 激烈 。 无 线 通 信 公 司 一 直 尝 试 采 用 新 办 法 ， 从 竞争 对 手 那 里 控 走 
客户 ， 并 培养 自己 客户 的 忠诚 度 。 服 务 的 基本 内 容 就 是 提供 物美 价 廉 的 产品 ， 因 此 无 线 通信 
公司 考虑 吸引 新 客户 的 奇异 办 法 。 
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本 案例 所 讲 的 是 ， 一 家 移动 通信 公司 采用 数据 控 据 ， 增 强 开 发 客户 的 能 力 ， 希 望 将 客户 
吸引 到 公司 新 的 服务 项 目 。 (我 们 十 分 感激 Apower Solutions 公司 的 Alan Parker 先生 提供 该 
案例 的 很 多 细节 材料 。) 


2.4.1 机 会 


这 家 公司 原来 想 测试 一 个 新 产品 的 市 场 前 景 。 由 于 技术 原因 ， 他 们 测试 产品 的 最 初 困 盖 
面 时 只 选择 了 几 百 个 订户 一 一 仅 占 目标 客户 群 的 一 小 部 分 。 

因此 ， 最 初 的 问题 是 推算 谁 有 可 能 对 这 种 新 产品 感 兴趣 。 这 是 数据 挖掘 的 典型 应 用 : 采 
用 最 划算 的 方法 ， 实 现 能 波及 到 的 响应 者 理想 数量 。 按 照 假 定 ， 定 向 市 场 葛 销 的 固定 成 本 看 
成 是 不 变 的， 每 次 联系 的 支出 也 差不多 是 固定 值 ， 那 么 要 减少 活动 的 总 成 本 ， 就 必须 降低 联 
系 的 数量 。 

为 确保 实验 的 有 效 性 ， 公 司 需要 有 一 定数 量 的 人 签约 。 对 于 新 产品 的 宣传 活动 ， 公 司 以 
前 的 经 验 是 ， 大 约 2% ~3% 的 现 有 客户 可 能 做 出 满意 的 响应 。 因 此 ， 为 达到 5$00 名 响应 者 
的 目标 ， 可 能 需要 联络 16 000 一 25 000 名 潜在 客户 。 

如 何 选择 目标 ? 如 果 给 每 位 预期 客户 打分 ， 这 件 事 会 变 得 非常 容易 。 假 定 分 值 范围 为 1 
到 100，1 代表 非常 有 可 能 购买 产品 ， 而 100 代表 没有 可 能 购买 产品 。 然 后 ， 根 据 得 分 情况 
将 候选 人 进行 排序 ， 市 场 营销 人 员 可 以 顺 着 这 个 名 单 往 下 数 ， 直 至 达到 想 要 的 响应 者 数量 。 
如 图 2-3 累积 增益 图 所 示 ， 联 系 最 有 可 能 响应 的 人 ， 以 较 低 的 联系 量 ， 获 得 期 望 的 响应 数 
量 ， 因 此 降低 了 成 本 。 


1 


引 响应 (Y 轴 ) 3 


必 


T 了 了 下 人 人 T 一 - 
2.000 4.000 6.000 8.000 ”联系 量 (X 轴 ) 12000 14,000 16.000 18.000 20.000 


图 2-3 分 级 潜在 客户 ， 利 用 响应 模型 ， 通 过 确定 少数 客户 目标 
并 且 得 到 同样 数量 的 响应 者 而 达到 节约 成 本 的 目的 
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累积 增益 图 将 在 下 一 章 详细 地 解释 。 有 目前 只 要 知道 该 曲线 是 通过 把 已 打分 的 潜在 客户 进 
行 排序 而 得 到 的 就 可 以 了 ， 沿 X 轴 方 向 ， 靠 左边 的 是 最 有 可 能 响应 的 客户 ， 而 右边 的 是 最 
不 可 能 响应 的 客户 。 对 角 线 表示 的 是 从 所 有 潜在 客户 中 随机 选取 样本 会 出 现 的 结果 。 从 该 图 
可 以 看 出 ， 按 照 好 的 响应 分 值 排序 ， 通 过 接触 更 少 的 潜在 客户 ， 可 以 降低 定向 市 场 营销 活动 
的 成 本 。 

移动 电话 公司 是 如 何 得 到 这 个 分 值 的 ? 当然 是 靠 数 据 控 掘 ! 


2.4.2 如 何 应 用 数据 挖掘 


多 数 数 据 挖 掘 方 法 是 通过 样本 获得 的 ， 神 经 网 络 、 决 策 树 生 成 元 或 其 他 方法 均 来 自 成 千 
上 万 的 训练 样本 。 每 一 个 训练 样本 明显 标注 为 响应 者 、 非 响应 者 。 在 观察 足够 的 类 似 样 本 之 
后 ， 运 用 工具 算出 以 计算 机 程序 形式 表示 的 模型 ， 然 后 读 取 尚 未 分 类 的 记录 ， 更 新 响应 得 分 
情况 或 分 类 。 

在 本 案例 中 ， 有 待 解决 的 问题 是 新 产品 介绍 ， 所 以 没有 已 经 做 出 响应 的 训练 样本 集合 。 
一 种 可 能 的 解决 办 法 是 ， 基 于 对 过 去 任何 服务 曾 做 出 响应 的 客户 来 构建 模型 。 这 样 的 模型 能 
区 分 拒绝 所 有 电话 推销 和 扔 掉 所 有 邮寄 宣传 品 的 人 ， 以 及 那些 偶尔 对 一 些 服 务 做 出 响应 的 
人 。 这 类 模型 被 称 为 非 响应 模型 ， 对 那些 真 想 大 范围 发 送 宣传 广告 的 公司 会 有 价值 。 非 赢 
利 、 向 退休 人 员 提 供 服务 的 美国 退休 人 士 协 会 (AARP)， 应 用 非 响应 模型 后 ， 节 约 了 数 百 
万 美元 的 邮寄 费用 。 他 们 以 前 向 至 少 有 一 位 成 员 年 龄 超过 $0 岁 的 所 有 家 庭 邮寄 广告 ， 现 在 
他 们 放弃 最 没有 希望 的 10% ， 仍 然 得 到 他 们 想得到 的 几乎 所 有 响应 者 。 

然而 ， 无 线 通信 公司 只 是 想 获得 几 百名 响应 者 ， 因 此 ， 识 别 最 有 希望 的 前 90% 的 模型 
不 可 能 达到 这 个 目的 。 相 反 地 ， 他 们 借鉴 另 一 个 市 场 上 的 类 似 新 产品 推介 ， 形 成 训练 记录 

区 

1. 确定 输入 

本 书 描绘 的 数据 挖掘 技术 中 ， 构 建 模型 过 程 的 核心 部 分 大 都 自动 进行 。 只 要 给 定 一 系列 
输入 数据 字段 和 一 个 目标 字段 〈 本 案例 是 指 购买 新 产品 ) ， 就 可 以 根据 输入 ， 找 到 解释 目标 
的 模式 和 规则 。 为 了 使 数据 控 据 获得 成 功 ， 必 须 在 输入 变量 和 目标 之 间 建 立 某 种 关系 。 

这 实际 上 意味 着 ， 识 别 、 定 位 和 准备 输入 数据 比 创建 和 运行 模型 经 常 要 花费 更 多 的 时 间 
和 精力 。 这 是 因为 ， 应 用 数据 挖掘 工具 已 经 使 创建 模型 变 得 非常 容易 。 要 做 好 选择 输入 变量 
的 工作 ， 没 有 处 理 商务 问题 的 知识 是 不 可 能 的 。 特 别 是 当 采 用 那些 声明 有 能 力 接受 所 有 数 
据 ， 并 且 能 自动 判断 出 哪些 领域 是 重要 的 数据 控 气 工具 的 时 候 ， 情 况 更 是 如 此 。 行 业 中 有 见 
地 的 人 们 所 期 望 的 重要 信息 ， 往 往 不 能 以 数据 控 气 工具 能 够 识别 的 方式 在 原始 输入 数据 中 体 
现 出 来 。 

无 线 电信 公司 明白 选择 正确 输入 数据 的 重要 性 。 来 自 几 个 不 同 职能 部 门 的 专家 (包括 市 
场 调查 、 销 售 和 客户 支持 以 及 请 来 的 数据 控 气 顾问) 聚集 在 一 起 讨论 ， 寻 找 可 利用 现 有 数据 
的 最 佳 方法 。 有 三 个 数据 来 源 可 以 利用 : 

。 销 售 客户 信息 档案 

*。 详细 的 电话 呼叫 数据 库 

。 人 口 统计 数据 库 

目前 为 止 ， 详 细 的 电话 呼叫 数据 库 是 三 者 中 最 大 的 一 个 数据 来 源 ， 包 含 目标 市 场 中 所 有 
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客户 打出 和 接听 电话 的 每 个 记录 。 销 售 数据 库 包含 简要 的 客户 数据 ， 涉 及 用 法 、 期 限 、 产 品 
历史 、 价 格 方案 和 付费 历史 记录 。 第 三 个 数据 库 包 含 关 于 客户 的 人 口 统计 和 生活 方式 等 
数据 。 

2. 衍生 输入 字段 

通过 上 述 自由 讨论 和 初步 分 析 ， 在 输入 到 预测 模型 的 客户 数据 中 ， 增 加 了 几 个 总 结 性 和 
描述 性 的 字段 : 

。 通 话 时 间 

。 来 电 数量 

。 呼 叫 频率 

。 影 响 范 围 

。 语 音 邮 件 用 户 标识 (voice mail user flag) 

需要 对 上 述 有 些 字 段 作 一 点 解释 。 通 话 时 间 (minutes of use，MOU) 是 衡量 客户 好 坏 
程度 的 标准 。 通 话 时 间 越 多 ， 越 是 好 客户 。 公 司 过 去 几乎 把 全 部 注意 力 集中 到 通话 时 间 上 ， 
而 不 顾 其 他 变量 因素 。 但 是 ， 通 话 时 间 掩 盖 了 很 多 重要 的 差异 : 2 个 长 呼叫 好 ， 还 是 100 个 
短 呼 叫好 ? 全 部 主 叫好 还 是 半数 被 叫好 ? 所 有 呼叫 都 是 同一 个 号 码 好 还 是 呼叫 很 多 号 码 好 ? 
上 述 后 面 的 几 个 字段 将 进一步 明晰 这 些 问 题 。 

影响 范围 〈sphere of influence，SOI) 是 另 一 个 重要 的 度量 ， 它 是 早期 数据 挖掘 发 展 出 
的 结果 。 客 户 的 影响 范围 ， 是 指 在 一 定时 期 内 ， 通 过 电话 与 该 客户 进行 交流 的 人 数 。 结 果 表 
明 : 作为 群体 ， 影 响 范 围 大 的 客户 行为 比 影响 范围 小 的 客户 行为 在 多 方面 存在 较 大 差异 ， 如 
呼叫 客户 服务 中 心 的 频率 和 忠诚 度 等 。 


2.4.3 处 理 行 动 


把 三 个 来 源 的 数据 汇集 在 一 起 ， 用 于 构建 数据 挖掘 模型 。 这 个 模型 可 以 用 于 识别 可 能 购 
买 新 产品 的 候选 人 。 可 以 采取 两 种 直接 邮寄 方式 投递 : 一 是 按照 数据 挖掘 模型 的 结果 产生 名 
录 进 行 投递 ， 二 是 投递 到 采用 普通 商务 方法 选 出 的 对 照 组 人 群 。 如 图 2-4 所 示 , 在 目标 组 客 
户 中 ， 有 15% 的 人 购买 了 新 产品 ， 而 在 对 照 组 人 群 中 ， 只 有 3% 的 人 购买 了 产品 。 


对 照 组 响应 的 比例 
图 2-4 ”这些 结果 表明 数据 挖掘 的 应 用 非常 成 功 


目标 市 场 响应 的 比例 


2.4.4 完成 循环 
在 数据 挖掘 的 帮助 下 ， 公 司 联系 到 了 新 产品 销售 的 合适 候选 人 群 ， 但 那 不 应 该 是 故事 的 
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结尾 。 一 旦 新 的 活动 结果 出 来 ， 数 据 挖 掘 技术 能 帮助 获得 更 好 的 实际 反应 前 景 。 依 靠 最 初 在 
测验 市 场 上 理解 到 的 买主 的 特征 ， 以 及 新 服务 项 目 开始 几 个 月 的 使 用 概况 ， 公 司 能 够 在 产品 
推出 后 的 销售 产品 市 场 上 ， 更 好 地 寻找 潜在 客户 。 


2.5 神经 网 络 和 决策 树 驱动 SUV 的 销售 


1992 年 ， 在 今天 可 用 的 任何 商业 数据 挖掘 工具 面市 以 前 ， 美 国 三 大 汽车 制造 商 之 一 ， 
要 求 Pontikes 管理 中 心 〈 隶 属于 南 伊利 诺 斯 大 学 分 校 ， 位 于 美国 卡 本 代 和 尔 市 ) 的 研究 组 开发 
一 个 “专家 系统 ”， 目 的 是 识别 可 能 购买 特别 的 运动 型 多 用 途 车 〈sportrutility vehicle，SUV) 
的 客户 。( 十 分 感谢 Wei-Xiong Ho 先生 ， 他 与 南 伊利 诺 斯 大 学 商业 管理 学 院 Joseph Harder 先 
生 一 起 从 事 此 项 工程 。) 

传统 的 专家 系统 是 由 数 百 或 数 千 条 规则 组 成 的 大 数据 库 ， 这 些 规 则 是 通过 观察 和 访问 擅 
长 特殊 任务 的 人 类 专家 收集 来 的 。 在 某 些 特定 的 领域 ， 例 如 ， 在 医疗 诊断 和 税收 问题 方面 ， 
专家 系统 已 经 获得 成 功 ， 但 是 收集 规则 的 难度 限制 了 它们 的 用 途 。 

为 了 解决 这 些 问 题 ， 南 伊利 诺 斯 大 学 的 研究 组 决定 ， 从 历史 数据 直接 生成 规则 。 换 言 
之 ， 他 们 将 用 数据 挖掘 代 替 专 家 访问 。 


2.5.1 最 初 的 挑战 


底特律 人 带 给 卡 本 代 尔 〈Carbondale) 研究 组 的 最 初 挑战 ， 就 是 改善 为 某 个 特别 车 型 进 
行 的 直接 邮寄 活动 的 响应 。 活 动 包括 向 潜在 客户 发 送 邀 请 函 ， 邀 请 他 们 参加 新 车 试 驾 。 接 受 
邀请 的 任何 人 可 以 在 经 销 商 处 免费 领 到 一 副 太 阳 镜 。 问 题 是 很 少 人 将 反馈 卡 寄 回 或 者 打 免 费 
电话 咨询 ， 其 中 几乎 没有 人 最 后 确实 购买 这 款 车 。 尽 管 公司 知道 ， 不 给 那些 不 响应 的 人 们 发 
送 邀 请 ， 可 以 为 自己 节约 很 多 资金 ， 但 他 们 不 知道 不 响应 客户 到 底 是 哪些 人 。 


2.5.2 ”如何 应 用 数据 挖 据 


正如 通常 会 遇 到 的 那样 : 待 挖掘 的 数据 来 自 几 个 不 同 的 信息 源 ， 这 时 第 一 个 挑战 就 是 整 
合 数据 ， 使 它们 形成 一 个 完整 的 数据 源 。 

1. 数据 

第 一 个 文件 “联络 文件 ” (mail file) ， 是 一 份 包含 姓名 和 通讯 地 址 的 联系 名 单 。 在 这 份 
名 单 上 ， 大 约 有 一 百 万 人 ， 他 们 都 收 到 过 宣传 邮件 。 这 份 文件 含有 很 少 对 筛选 有 益 的 信息 。 

在 联络 文件 上 ， 附 加 了 一 些 邮 政 编码 数据 。 这 些 邮 政 编码 可 以 在 商用 的 PRIZM 数据 库 
中 查 到 。 在 这 个 数据 库 中 ， 包 含 了 与 邮政 编码 相关 联 的 人 口 统计 学 和 心理 描绘 方面 的 居住 区 
域 特 征 。 

另外 两 个 文件 含有 关于 寄 回 反馈 卡 或 为 理解 信息 拨打 免费 电话 的 客户 的 信息 。 由 于 联络 
文件 包含 了 为 每 个 住址 设计 的 打印 在 反馈 卡 上 的 九 字 符 密 钥 ， 所 以 将 反馈 卡 与 原始 联络 文件 
联系 起 来 是 一 件 很 简单 的 事情 。 打 电话 者 则 有 不 止 一 个 问题 : 打 电 话 者 提供 的 姓名 和 地 址 可 
能 与 数据 库 的 地 址 不 完全 相符 ; 不 能 保证 打 电 话 的 人 就 是 联络 文件 中 记录 的 人 ， 因 为 收 到 邮 
件 的 人 可 能 已 将 这 种 信息 转 给 其 他 人 。 

在 投放 邮件 的 1 000 003 人 中 ,32 904 人 通过 反馈 卡 做 出 响应 ，16 4S3 人 通过 拨打 免费 
电话 做 出 响应 ， 初 始 的 总 响应 率 约 为 5% 。 汽 车 制造 商 的 主要 兴趣 点 当然 是 那些 既 对 邮件 做 
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出 响应 ， 又 会 购买 所 推销 车 型 的 极 少数 人 。 这 些 资料 可 以 从 制造 商 的 销售 文件 中 找到 ， 该 文 
件 含有 在 发 出 邮件 后 三 个 月 内 所 有 买主 的 姓名 、 地 址 和 购买 车 型 。 

采用 模糊 匹配 标准 运行 自动 名 称 匹配 程序 发 现 ， 在 已 购车 者 和 收 到 邮件 的 人 中 ， 大 约 有 
22 000 对 明显 匹配 。 通 过 手工 编辑 ， 把 购车 者 和 收 到 邮件 者 的 交集 降 为 4764 人 ， 甚 中 大 约 
有 半数 的 人 已 经 购买 了 广告 推销 的 车 型 。 图 2-5 给 出 了 所 有 数据 源 之 间 的 比较 。 


/ 打 电 话 响应 
(16 453) 


图 2-5 在 训练 集中 的 潜在 客户 具有 交 迭 关系 


2. 沿 标杆 向 下 挖掘 

实验 设计 要 求 把 人 群 分 两 个 大 类 : 成 功 和 失败 。 由 于 设计 模糊 了 有 趣 的 差异 ， 这 种 严格 
分 类 肯定 是 一 项 令 人 质疑 的 设计 。 事 实 上 ， 来 到 经 销 商 店 试 一 款 车 ， 最 后 却 购买 了 另 一 种 车 
型 的 人 ， 应 该 是 不 同 于 非 响应 者 的 另 一 类 ; 已 经 做 出 响应 但 什么 车 也 没 买 的 人 ， 也 属于 一 
类 。 同 样 ， 被 视 为 不 值得 发 送 邮件 却 购买 了 车 的 潜在 客户 ， 更 是 二 个 值 得 关注 的 群体 。 

尽管 如 此 ， 成 功 的 定义 是 指 “ 收 到 邮件 ， 并 且 购 买 该 型 号 车 "失败 的 定义 则 是 “ 收 到 
邮件 ， 但 是 没有 买 这 款 车 ”。 利 用 决策 树 和 神经 网 络 ， 我 们 进行 了 一 系列 实验 ,在 多 种 类 型 
的 训练 集 〈training set)j 中 光 测 试 了 分 析 工 具 。 一 些 训练 集 返 回 了 数据 库 中 成 功 的 实际 比 
例 ， 而 另 一 些 竟然 达到 10% 的 成 功率 。 关 注 程度 越 高 ， 产 生 的 结果 就 越 好 。 

神经 网 络 可 以 对 稀少 的 训练 集 得 到 较 好 的 结果 ， 而 决策 树 看 来 在 丰富 的 训练 集 上 效果 更 
好 。 研 究 人 员 决定 把 过 程 分 为 两 个 阶段 % 首先 通过 神经 网 络 确定 谁 有 可 能 从 公司 购买 一 款 
车 ， 不 计 车 型 ; 然后 应 用 决策 树 预 测 哪 类 潜在 购买 者 会 选择 广告 推销 的 车 型 。 两 步 决策 过 程 
被 证 明 是 十 分 成 功 的 。 结 合 神经 网 络 和 决策 树 的 数据 挖掘 模型 很 少 丢掉 购买 目标 车 型 的 客 
户 ， 同 时 能 够 比 单独 采用 神经 网 络 或 决策 树 模型 筛选 掉 更 多 非 购买 者 。 


2.5.3 最 终 措 施 


利用 能 有 效 波 及 响应 者 的 模型 ， 公 司 决定 ， 把 减少 邮件 发 送 而 节约 的 资金 用 于 增强 吸引 
湾 在 客户 到 样 车 展示 室 的 诱惑 。 他 们 向 非常 小 的 一 个 潜在 购车 群体 赠送 一 双 不 错 的 皮 靴 ， 而 
不 是 向 大 众 赠 送 太 阳 镜 。 结 果 证 明 新 方法 比 老 办 法 更 行 之 有 效 。 
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2.5.4 完成 循环 


基于 全 局 的 数据 挖掘 工程 显示 ， 即 便利 用 有 限 的 和 粗 线条 的 变量 以 及 相当 原始 的 按 掘 工 
具 ， 数 据 挖 掘 也 能 提高 定向 市 场 营销 活动 的 效率 ， 即 使 像 汽 车 这 样 的 大 件 商品 。 下 一 步 工作 
就 是 收集 更 多 的 数据 ， 构 建 更 好 的 模型 ， 并 且 反 复 实 验 。 


2.6 小 结 


本 章 从 回顾 工业 革命 的 驱动 力 以 及 英格兰 和 新 英格兰 建造 大 型 工厂 讲 起 。 这 些 工厂 现在 
或 者 已 经 废弃 ， 或 者 被 推倒 ， 或 者 改头换面 变 作 他 用 。 水 力 不 再 是 商业 的 驱动 力 ， 数 据 已 经 
取而代之 。 

数据 挖掘 的 良性 循环 是 利用 数据 作 动力 ， 把 它 转化 成 可 用 于 商业 的 结果 。 就 像 过 去 整个 
工 上 的 运转 曾经 是 靠 水 推 着 轮子 转 从 而 驱动 机 器 一 样 ， 通 过 一 个 组 织 收集 和 传播 数据 也 会 创 
造价 值 。 假 若 把 数据 类 比 成 水 的 话 ， 那 么 数据 挖掘 就 是 轮子 ， 良 性 循环 就 是 将 数据 动力 传播 
到 企业 的 所 有 运行 过 程 。 

数据 挖掘 的 良性 循环 是 一 个 基于 客户 数据 的 学 习 过 程 ， 起 点 是 识别 利用 数据 控 据 的 适当 
商机 。 最 好 的 商业 机 遇 就 是 那些 按照 数据 挖掘 指导 行动 的 机 遇 。 如 果 不 采 取 行 动 ， 获 取 的 客 
户 信息 其 价值 就 很 少 或 没有 价值 。 

测试 行为 的 结果 也 非常 重要 ， 完 成 测试 也 就 完成 了 良性 循环 的 一 环 ， 并 且 通 常 还 会 找 出 
进一步 做 数据 挖掘 的 机 会 。 
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上 一 章 介 绍 了 数据 控 据 作为 业务 过 程 的 良性 循环 ， 讨 论 中 把 数据 控 掘 过 程 分 为 4 个 
阶段 : 

1) 识别 问题 

2) 把 数据 转换 为 信息 

3) 采取 行动 

4) 测试 结果 

从 现在 开始 ， 应 该 把 数据 挖掘 作为 技术 过 程 来 考察 了 。 高 层 轮廓 依然 如 前 所 述 ， 但 重点 
转向 将 商业 问题 转换 成 数据 控 掘 的 问题 ， 而 不 仅 是 识别 商业 问题 。 将 数据 转换 为 信息 的 主题 
扩大 为 几 个 主题 ， 包 括 假设 测试 、 建 立 简 档 和 预言 性 建 模 。 在 本 章 中 ， 采 取 行 动 指 的 是 模型 
部 署 和 评分 等 技术 行为 。 将 一 个 模型 用 于 指导 市 场 营销 行为 之 前 ， 必 须 进 行 实验 测量 来 评价 
它 的 稳定 性 和 有 效 性 。 

因为 全 书 侧重 于 方法 论 ， 所 以 本 章 中 介绍 的 最 佳 实践 活动 还 会 在 相关 章节 给 出 详细 痢 
述 。 本 章 的 目的 是 把 方法 论 集中 在 一 起 介绍 。 

避免 中 断 数据 控 掘 的 良性 循环 的 最 好 方法 是 理解 其 可 能 失败 的 情形 ， 然 后 采取 预防 性 的 
措施 。 多 年 来 ， 作 者 曾经 遇 到 很 多 种 数据 挖掘 出 现 错误 的 情况 。 因 此 ， 我 们 发 展 了 一 套 有 效 
的 习惯 性 方法 ， 即 从 业务 问题 的 初始 描述 如 何 顺利 到 达能 够 产生 可 操作 和 可 测量 结果 的 稳定 
模型 。 本 章 将 把 这 些 最 佳 实践 活动 总 结 出 的 有 序 步骤 ， 作 为 数据 挖掘 方法 论 来 展示 。 数 据 控 
气 是 一 个 自然 的 欠 代 过 程 ， 有 些 过 程 需要 多 次 重复 ， 但 是 不 应 该 完全 跳 过 任何 一 个 过 程 。 

数据 挖掘 的 方法 越 严格 就 越 复 杂 ， 如 果 缺 少 其 中 一 个 步 又， 数据 控 掘 工作 就 可 能 失败 。 
本 章 通过 描述 各 种 可 能 失败 的 情况 ， 给 出 了 建立 方法 论 需 要 的 内 容 。 下 面 将 首先 考虑 最 简单 
的 数据 挖掘 方法 : 使 用 专门 查询 来 测试 假定 ， 然 后 研究 更 加 复杂 的 行为 ， 如 建立 用 于 评分 模 
型 的 正规 简 档 、 建 立 真正 的 预言 性 模型 等 。 最 后 ， 将 数据 控 气 良性 循环 的 4 个 步骤 转换 为 数 
据 控 掘 方法 论 的 11 步 。 
3.1 为 什么 需要 方法 论 

数据 挖掘 是 从 过 去 获取 知识 用 于 未 来 更 好 决策 的 一 种 方法 。 本 章 介 绍 的 最 佳 实践 方法 主 
要 为 了 避免 知识 获取 过 程 中 出 现 以 下 两 个 不 希望 的 结果 ，; 

。 获 取 不 真实 的 知识 。 

。 获 取 真 实 但 无 用 的 知识 。 

就 像 水 手 要 学 会 绕 开 海上 的 洲 涡 和 海中 的 暗礁 等 危险 一 样 ， 数 据 挖掘 人 员 需 要 了 解 如 何 
避免 这 些 常见 的 陷 陡 。 


3.1.1 获取 不 真实 的 知识 


获取 不 真实 的 知识 比 获 取 无 用 的 知识 更 加 危险 ， 因 为 人 们 可 能 依据 这 些 不 正确 的 信息 做 
出 重要 的 商业 决策 。 数 据 挖掘 的 结果 似乎 通常 是 可 靠 的 ， 因 为 从 表面 上 看 ， 是 基于 科学 的 方 
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式 而 获取 的 。 这 种 可 靠 性 外 观 很 具有 坎 骗 性 : 因为 数据 本 身 可 能 是 不 正确 的 ， 或 者 与 当前 的 
问题 没有 关联 ; 发 现 的 模式 可 能 只 反映 了 过 去 的 商业 决策 ， 也 可 能 根本 什么 也 没 反映 ;一些 
数据 转换 (如 汇总 ) 可 能 破坏 或 者 隐藏 了 一 些 重 要 的 信息 。 下 面 几 节 讨 论 可 能 导致 错误 结论 
的 更 常见 问题 。 

1. 模式 可 能 不 代表 任何 底层 规则 

我 们 经 常 说 数字 不 会 说 谎 ， 但 是 说 谎 者 会 乔装 打扮 。 在 数据 中 寻找 模式 (pattern) 时 ， 
数据 实际 上 不 必 撒 谎 以 误导 出 不 真实 的 结论 。 有 那么 多 构造 模式 的 方法 ， 因 此 只 要 研究 足 鲍 
长 的 时 间 ， 任 何 数 据点 的 集合 都 可 以 揭示 一 个 模式 。 人 们 在 生活 中 强烈 依赖 于 不 同 的 模式 ， 
即使 在 不 存在 模式 的 时 候 ， 我 们 也 努力 在 寻找 它们 。 当 我 们 抬头 看 夜空 时 ， 看 到 的 不 是 杂乱 
无 章 的 星星 ， 而 是 北斗 七 星 、 南 十 字 座 或 者 猜 户 星座 等 。 甚 至 有 些 人 看 到 了 用 来 预测 未 来 的 
占星 术 图 案 或 者 征兆 。 广 泛 接受 的 各 种 古怪 的 协同 作用 理论 是 人 类 需要 寻找 模式 的 更 进一步 
的 证 据 。 

推测 起 来 ， 人 类 变 得 如 此 热衷 于 模式 的 原因 在 于 ， 模 式 通常 确实 反映 了 一 些 现 实 世 界 运 
转 的 底层 原理 。 月 亮 的 圆 缺 、 四 季 的 更 蔡 、 日 夜 的 轮转 ， 甚 至 喜爱 的 电视 节目 在 一 周 的 某 一 
天 的 某 个 固定 时 间 的 规则 出 现 都 是 有 用 的 ， 因 为 它 是 稳定 的 ， 因 而 是 有 预言 性 的 。 可 以 使 用 
这 些 模 式 来 决定 什么 时 候 种 植 西红柿 是 安全 的 ， 如 何 给 录像 机 编 好 录制 节目 时 间 表 。 另 一 些 
模式 显然 不 具有 任何 预言 能 力 ， 如 果 抛 一 枚 硬币 一 连 出 现 了 五 次 正面 向 上 的 情况 ， 第 六 次 抛 
起 仍然 有 五 成 的 可 能 会 反面 朝 上 。 

数据 挖掘 人 员 面 临 的 挑战 是 计算 出 哪些 模式 是 预言 性 的 ， 哪 些 不 是 。 考 虑 下 面 这 些 模 
式 ， 所 有 这 些 都 是 在 一 些 大 众 出 版 物 文章 中 引用 的 、 好 像 具 有 预言 性 价值 的 模式 : 

。 非 执政 党 在 非 大 选 年 的 竞选 期 间 获 得 国会 席位 居多 数 。 

。 当 美国 联盟 赢得 世界 职业 棒球 大 赛 ， 共 和 党 人 在 白宫 执政 。 

。 华 盛 顿 红 皮 人 队 赢 得 最 后 一 个 主场 比赛 ， 执 政党 在 白宫 继续 执政 。 

“在 美国 总 统 竟 选中 ， 个 子 高 的 人 通常 会 赢 。 

第 一 个 模式 〈 涉 及 非 大 选 年 ) 从 纯 政 治 的 角度 看 来 是 可 以 解释 的 。 因 为 存在 一 个 潜 规 则 
解释 ， 这 个 模式 看 起 来 将 会 继续 ， 因 而 有 预言 性 价值 。 而 下 面 两 个 包含 体育 事件 的 预言 ， 看 
起 来 显然 没有 任何 预言 性 价值 。 不 管 共 和 党 人 和 美国 联盟 曾经 多 少 次 〈 作 者 并 没有 提 及 这 一 
点 ) 共同 分 享 胜利 ， 也 没有 理由 认为 这 种 关联 将 会 继续 。 

总 统 候选 人 的 个 子 情 况 又 如 何 呢 ? 至 少 自 1945 年 Truman 竞选 成 功 以 来 〈 他 虽然 个 头 
不 高 ， 但 是 比 Dewey 要 高 )，Carter 击败 Ford 的 那 场 选 举 是 惟一 一 位 狠 个 子 获胜 的 选举 (只 
要 将 “获胜 ”定义 为 “获得 最 多 的 选票 "，2000 年 大 选中 身高 6 六 的 Gore 和 身高 60 的 
Bush 竞争 仍然 适应 这 一 模式 )。 身 高 似乎 并 不 应 该 和 总 统 职位 有 任何 联系 ， 但 从 另 一 方面 考 
虑 ， 身 高 确实 与 收入 和 其 他 社会 成 功 标 志 有 相互 关系 ， 因 此 有 意 或 者 无 意 地 ， 选 民 会 认为 个 
子 高 的 人 更 适合 做 总 统 。 正 如 本 章 介 绍 的 ， 正 确 判 断 一 条 规则 是 否 稳定 并 具有 预言 性 的 办 法 
是 ， 比 较 它 在 从 同一 人 群 中 随机 选取 的 多 份 样本 的 表现 。 我 们 把 总 统 身 高 的 情况 作为 练习 留 
给 读者 。 通 常 的 情况 下 收集 数据 是 最 难 的 部 分 ， 即 使 在 Google 盛行 的 时 代 ， 要 收集 到 18 世 
纪 、19 世纪 以 及 20 世纪 落选 的 总 统 候选 人 的 身高 也 并 不 容易 。 

发 现 不 能 推广 的 模式 的 技术 术语 是 过 度 适应 (overfitting)。 过 度 适 应 导致 不 稳定 的 模 
型 ， 这 些 模型 可 能 某 一 天 起 作用 ， 但 是 另 一 天 却 不 起 作用 。 建 立 稳定 的 模型 是 数据 挖掘 方法 
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论 的 主要 目标 。 

2. 模型 集 可 能 不 能 反映 相关 人 群 的 总 体 状况 

模型 集 是 用 于 建立 数据 挖掘 模型 的 历史 数据 的 集合 。 为 使 从 数据 集 提 取 的 推论 正确 ， 模 
型 集 必 须 反 映 模型 所 描述 、 分 类 和 评分 的 人 群 的 总 体 状况 。 不 能 正确 反映 母体 数据 的 样本 是 
有 偏差 的 。 使 用 有 偏差 的 样本 作为 模型 集 就 会 导致 获取 不 完全 真实 的 结果 ， 当 然 这 也 是 很 难 
避免 的 。 考 虑 下 面 的 例子 : 

。 客 户 不 同 于 光 在 客户 ; 

。 市场 调查 的 响应 者 不 同 于 非 响应 者 ; 

*。 读 电子 邮件 的 人 不 同 于 不 读 的 人 ; 

。 在 网 站 已 经 注册 的 人 不 同 于 注册 失败 的 人 ; 

。 公 司 并 购 之 后 ， 被 收购 公司 的 客户 未 必 与 并 购 公司 的 客户 相同 ; 

* 没有 缺失 值 的 记录 所 反映 的 人 群 状 况 ， 可 能 不 是 有 缺失 记录 的 人 和 群 状况 。 

现实 客户 不 同 于 潜在 客户 ， 因 为 他 们 代表 的 是 在 过 去 的 时 间 里 ， 一 直 积 极 响应 任何 信 
息 、 服 务 和 各 种 吸引 客户 的 促销 活动 的 那些 人 群 。 对 当前 客户 的 研究 可 能 得 到 更 多 同样 的 结 
论 。 如 果 过 去 的 市 场 营 销 活 动 追逐 的 是 那些 市 区 的 富有 消费 者 ， 那 么 任何 用 当前 客户 与 一 般 
人 群 的 比较 都 可 能 显示 客户 应 该 倾向 于 富有 的 城市 人 。 这 样 的 模型 可 能 错过 使 中 等 收入 的 郊 
区 居民 成 为 客户 的 机 会 。 而 使 用 有 偏差 样本 的 结果 比 仅仅 错过 营销 机 会 更 糟 。 美 国有 “经 济 
歧视 ”的 历史 ， 在 某 些 邻 近 地 区 有 拒绝 给 予 贷款 或 者 保险 政策 的 非法 行为 。 从 一 个 有 经 济 歧 
视 史 的 公司 的 历史 数据 中 寻求 模式 ， 可 能 显示 某 些 地 区 的 人 们 不 太 可 能 成 为 客户 。 如 果 未 来 
的 销售 行为 是 基于 这 一 发 现 之 上 ， 数 据 挖掘 就 会 促成 这 种 非法 的 、 不 道德 行为 的 永存 。 

细心 关注 模型 集 样 本 数据 的 筛选 和 取样 ， 对 成 功 的 数据 控 据 至 关 重 要 。 

3. 数据 位 于 氏 误 的 详细 层次 

事实 说 明 ， 在 不 止 一 种 行业 中 , 在 客户 要 离开 前 的 一 个 月 中 商务 使 用 率 通常 会 下 降 。 待 
我 们 仔细 检查 相关 数据 后 ， 发 现 这 又 是 一 个 获取 不 真实 信息 的 例子 。 图 3-1 显示 的 是 移动 电 
话 用 户 每 月 使 用 分 钟 数 。7 个 月 来 ， 该 用 户 月 平均 使 用 100 分 钟 以 上 。 然 后 在 第 8 个 月 ， 使 
用 率 下 降 了 一 半 。 在 第 9 个 月 根本 就 没有 使 用 。 


用 户 使 用 的 分 钟 数 


图 3-1 第 8 个 月 的 使 用 下 降 预示 着 客户 将 在 第 9 个 月 流失 吗 


这 位 用 户 看 来 适应 这 样 的 模式 : 在 用 户 要 放弃 使 用 该 项 服务 之 前 ， 有 一 个 月 的 使 用 率 会 
下 降 。 但 是 表面 现象 具有 坎 骗 性 。 注 意 该 客户 每 天 使 用 的 分 钟 数 而 不 是 每 月 的 使 用 情况 ， 可 
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以 发 现 该 用 户 一 直 以 一 种 固定 的 比率 在 使 用 这 项 服务 直到 那个 月 〈 第 8 个 月 ) 中 旬 的 某 一 
天 ， 然 后 完全 停止 ， 大 概 因为 在 那 一 天 ， 他 (或 她 ) 开始 使 用 一 项 竞争 对 手 的 服务 。 假 定 的 
使 用 率 下 降 阶段 实际 上 并 不 存在 ， 因 此 当然 不 能 提供 保留 客户 的 最 佳 时 机 。 实 际 上 最 主要 的 
线索 似乎 就 是 拖 后 的 那 一 段 。 

图 3-2 显示 了 另 一 个 由 聚集 引起 混乱 的 例子 。10 月 份 的 销售 额 似 乎 较 8 月 和 9 月 有 所 下 
降 。 图 示 数 据 来 自 仅 在 白天 有 销售 活动 的 一 个 企业 ， 这 个 时 候 金融 部 门 也 在 营业 。 因 为 
2003 年 10 月 的 双休日 和 节假日 都 比较 集中 ， 所 以 10 月 份 的 交易 日 较 8 月 和 9 月 少 一 些 ， 
这 就 是 10 月 份 整体 销售 额 下 降 的 原因 。 


月 销售 疾 (2003 年 ) 
43500 


9 月 


图 3-2 10 月 份 的 销售 额 下 降 了 吗 


在 前 面 的 例子 中 ， 聚 集 (aggregation) 运算 引起 了 混乱 ， 其 实 如 果 聚 集 层次 不 合适 也 会 
导致 混乱 。 一 个 案例 是 ， 慈 善 机 构 提 供 的 数据 显示 ， 捐 赠 人 响应 捐赠 请 求 的 可 能 性 和 捐赠 数 
量 成 反比 关系 ， 即 那些 非常 可 能 响应 的 人 捐赠 小 额 的 支票 。 这 种 违反 直觉 的 发 现 是 蓄 善 机 构 
每 年 向 支持 者 发 出 大 量 请 求 的 结果 。 设 想 有 两 位 捐赠 人 ， 每 位 计划 向 慈 善 机 构 捐赠 500 美 
元 。 一 位 响应 1 月 份 的 请 求 ， 递 送 了 一 张 500 美元 的 捐献 ， 并 且 把 其 他 请 求 信 扔 到 垃圾 桶 。 
必 一 位 响应 5 次 请 求 ， 每 次 捐赠 100 美元 。 在 他 们 的 税 后 年 收入 中 ， 两 位 捐赠 人 都 汇报 捐赠 
了 500 美元 ， 但 是 从 个 人 行为 层次 来 看 ， 第 二 位 看 起 来 属于 “更 可 能 做 出 响应 者 "。 当 聚集 
运算 以 年 为 计算 层次 时 ， 这 种 结果 差异 就 消失 了 。 


3.1.2 获取 真实 但 无 用 的 知识 


获取 无 用 知识 的 情况 ， 虽 然 不 像 获取 不 真实 的 内 容 那 样 危险 ， 但 却 是 非常 普遍 遇 到 的 
现象 。 
1. 获取 已 知 的 知识 
数据 挖 据 应 该 提供 新 的 信息 。 数 据 中 很 多 非常 清楚 的 模式 表示 已 知 的 知识 。 到 退休 年 龄 
的 人 倾向 于 不 响应 那些 退休 储蓄 计划 。 住 在 没有 送 货 上 门 服务 地 区 的 人 ， 不 会 订阅 报纸 ， 即 
使 他 们 可 能 响应 订阅 服务 ， 服 务 也 不 会 开始 。 同 样 ， 住 在 没有 移动 信号 发 射 塔 地 区 的 人 也 不 
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会 买 移动 电话 。 

通常 ， 很 清楚 的 模式 反映 了 商业 规则 。 如 果 数 据 控 掘 “ 发 现 ” 使 用 匿名 呼叫 业务 的 人 也 
拥有 呼叫 导 ， 这 可 能 因为 匿名 呼叫 业务 仅仅 是 包含 呼叫 号 的 捆绑 服务 业务 中 的 一 部 分 。 如 果 
在 一 些 特殊 的 地 区 没有 这 类 产品 销售 ， 可 能 就 不 会 在 那里 提供 这 种 服务 。 我 们 曾经 见 到 很 多 
这 样 的 发 现 ， 不 是 这 些 模式 没有 意义 ， 只 是 它们 的 强度 可 能 使 某 些 不 明显 的 模式 黯淡 。 

获取 已 知 的 知识 确实 可 以 给 我 们 一 个 有 用 的 提示 ， 从 技术 角度 来 说 ， 这 表明 数据 挖掘 工 
作 确 有 成 效 ， 而 且 数 据 本 身 也 已 经 相当 精确 ， 这 是 非常 邻 人 鼓舞 的 。 如 果 数 据 和 所 应 用 的 数 
据 挖 掘 技术 足以 发 现 已 知 正确 的 事实 ， 据 此 可 以 相信 其 他 发 现 也 可 能 为 真 。 数 据 挖掘 也 经 常 
揭示 应 该 知道 但 迄今 还 不 知道 的 事情 ， 例 如 : 退休 人 员 对 退休 储 鞋 存款 账户 的 响应 可 能 性 
不 大 。 

2. 获取 不 能 使 用 的 知识 

数据 挖掘 也 时 常 揭示 真实 的 和 事先 不 知道 的 某 些 关系 ， 但 是 仍然 很 难 利用 它们 。 有 时 候 
问题 在 于 规章 的 限制 : 客户 的 无 线 呼叫 模式 也 许 间 接 表 明 某 种 有 线 长 途 通 信 业 务 包 之 间 的 密 
切 关 系 ， 但 是 一 个 同时 提供 这 两 种 业务 的 公司 可 能 不 被 允许 利用 这 个 有 利 条 件 。 类 似 地 ， 客 
户 的 信用 历史 能 够 预言 未 来 的 保险 索赔 ， 但 是 规则 可 能 禁止 基于 这 一 点 做 出 保险 决策 。 

另 一 些 时 候 ， 数 据 挖掘 发 现 重 要 的 结果 可 能 不 在 公司 可 控制 范围 之 内 。 一 种 产品 可 能 更 
适合 某 些 气候 ， 但 是 我 们 很 难 改变 气候 。 可 能 由 于 地 形 原因 ， 在 某 些 地 区 的 某 种 服务 会 很 
差 ， 但 这 也 很 难 改变 。 

提示 : 有 时 ， 缺 乏 想 象 会 使 新 的 信息 看 来 是 无 用 的 。 关 于 客户 流失 的 案例 研究 极 有 

可 能 表明 客户 要 离开 的 最 强 信号 是 获得 客户 时 的 方式 。 回 过 头 来 修改 现 有 客户 的 获 

取 方 式 已 经 太 迟 了 ， 但 是 这 并 不 说 明 信 息 是 无 用 的 。 通 过 改变 不 同 获取 渠道 的 组 合 

来 减少 未 来 流失 (〈future attrition) ， 转 向 那些 带 来 持久 客户 的 渠道 ， 可 以 减少 未 来 

客户 的 流失 。 

数据 挖掘 方法 论 的 目的 是 避免 获得 不 真实 的 知识 ， 以 及 任何 没有 用 的 知识 。 更 积极 的 理 
解 是 ， 数 据 控 气 的 目标 是 确保 数据 挖掘 得 到 稳定 的 模型 ， 以 便 将 该 模型 用 于 要 解决 的 商业 
问题 。 


3.2 假设 测试 


假设 测试 (hypothesis testing) 是 整合 数据 到 公司 的 决策 制定 过 程 (decision-making pro- 
cess) 的 最 简单 方法 。 假 设 测 试 的 目标 是 证 实 或 者 反 驱 预想 观点 ， 是 几乎 所 有 数据 挖掘 工作 
的 一 部 分 。 数 据 挖掘 人 员 经 常 在 各 种 方法 之 间 来 回 反 复 ， 先 是 对 观察 到 的 行为 〈 通 常 在 商业 
专家 的 帮助 下 ) 给 出 可 能 的 解释 ， 并 且 抽 取 数 据 ， 分 析 假 设 的 合理 性 ， 然 后 让 数据 给 出 要 测 
试 的 新 假设 。 

假设 测试 是 科学 家 和 统计 学 家 惯 于 花费 心血 研究 的 事情 。 假 设 是 一 种 解释 ， 它 的 正确 性 
可 以 由 分 析 数 据 来 检验 。 这 些 数据 或 者 仅仅 由 观察 收集 ， 或 者 由 实验 生成 ， 比 如 测试 邮寄 。 
当 结 果 显 示 ， 用 于 指导 公司 市 场 行为 的 这 些 假设 是 不 正确 的 时 候 ， 假 设 测试 是 最 有 价值 的 。 
例如 ， 假 定 公司 的 广告 是 基于 某 个 产品 或 服务 的 目标 市 场 的 许多 假设 以 及 响应 本 性 ,那么 这 
些 假设 是 和 否 被 实际 的 响应 证 实 就 非常 值得 测 坛 。 一 种 方法 是 对 不 同 的 广告 使 用 不 同 的 热线 电 
话 号 码 ， 记 录 每 个 响应 者 拨打 的 号 码 ， 然 后 将 所 收集 的 通话 信息 与 广告 最 初期 望 影响 的 人 和 群 
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进行 比较 。 

提示 : 每 次 公司 寻求 客户 的 响应 时 ， 不 管 是 通过 广告 或 者 其 他 的 直接 交流 方式 ， 都 

有 机 会 收集 信息 。 沟 通 方 式 的 微小 改变 ， 如 包括 一 种 能 够 识别 用 户 反 馈 渠 道 的 方 

法 ， 都 可 能 大 大 增加 所 收集 数据 的 价值 。 

假 商 测试 本 质 上 是 不 确定 的 ， 因 此 用 “方法 论 ” 这 个 术语 也 许 有 点 不 恰当 。 然 而 ， 这 个 过 
程 还 是 有 一 些 可 以 确认 的 步骤 ， 其 中 第 一 个 也 是 最 重要 的 步 双 就 是 产生 用 来 测试 的 好 主意 。 

1. 产生 假设 

产生 假设 的 关键 在 于 从 公司 上 下 获得 不 同 的 输入 数据 ， 如 果 可 能 ， 最 好 从 公司 外 部 也 获 
得 一 些 数据 。 通 常 ， 开 始 这 个 认识 过 程 的 全 部 所 需 是 清楚 地 表述 问题 本 身 ， 特 别 是 以 前 没有 
认识 到 是 一 个 问题 的 事情 。 

经 常 发 生 的 现象 是 : 用 于 评价 公司 业绩 的 度量 没有 捕捉 到 某 个 问题 ， 所 以 这 个 问题 一 直 
没 被 注意 到 。 如 果 公 司 总 是 基于 每 月 的 新 销售 量 来 测试 销售 能 力 ， 销 售 人 员 可 能 永远 不 会 去 
考虑 “新 客户 保持 活 跃 的 时 间 ” 或 者 “他 们 在 公司 与 客户 保持 关系 的 问题 上 花费 了 多 少 ”这 
类 问题 。 然 而 当 被 问 及 这 些 问 题 时 ， 销 售 人 员 可 能 意识 到 ， 某 些 客户 行为 是 由 于 市 场 营销 与 
客户 之 间 的 距离 太 远 而 错过 了 。 

2. 测试 假设 

考虑 下 面 的 假设 : 

“ 经常 在 外 的 人 对 移动 电话 每 分 钟 的 价格 敏感 度 比 其 他 人 低 。 

。 有 孩子 在 上 中 学 的 家 庭 更 有 可 能 响应 家 庭 抵押 贷款 产品 。 

“业务 中 心 的 挽留 处 正在 挽留 那些 本 可 能 回头 的 客户 。 

必须 将 这 些 假设 以 一 种 合适 的 方式 在 现实 数据 上 测试 。 依 据 这 些 假 设 的 不 同 ， 或 许 意味 着 
要 去 解释 简单 查询 返回 的 单个 值 ， 或 在 由 购物 篮 分 析 (marketing basket analysis) 产生 的 一 堆 关 
联 规 则 中 淘汰 ， 或 确定 回归 模型 产生 的 关联 的 意义 ， 或 者 设计 对 照 实验 (controlled experiment) 
等 。 在 所 有 这 些 情 况 下 ， 必 须 仔 细 认 真 地 考虑 ， 以 保证 结果 在 意外 的 情况 下 没有 偏差 。 

正确 评价 数据 挖 据 的 结果 需要 具有 分 析 和 商业 两 方面 的 知识 。 当 不 是 由 同一 个 人 来 处 理 
这 两 方面 的 事情 时 ， 就 需要 进行 交叉 合作 来 充分 利用 新 信息 。 


3.3 模型 、 建 立 简 档 和 预测 


假设 测试 当然 有 用 ， 但 有 时 还 不 够 。 本 书 下 面 介绍 通过 建立 模型 获取 新 知识 的 数据 挖掘 
技术 。 

在 通常 状况 下 ， 模 型 是 对 某 些 事情 的 一 种 解释 或 者 描述 : 它们 能 很 好 地 反映 现实 世界 ， 
可 用 于 对 现实 世界 的 推测 。 人 类 一 直 在 有 意 或 无 意 中 利用 模型 。 比 如 有 两 个 餐馆 ， 其 中 一 家 
有 白 色 的 桌布 ， 每 个 桌子 上 摆 有 鲜花 ， 另 一 家 用 的 是 塑料 贴 面 桌子 ， 桌 上 摆 着 塑料 花 ， 你 会 
推测 前 者 比 后 者 更 贵 ， 就 是 基于 头脑 中 的 模型 进行 推理 的 。 当 你 走出 餐馆 步 人 店铺 ， 关 于 这 
个 镇 的 印象 模型 又 一 次 留 在 了 你 的 脑海 中 。 

数据 挖掘 都 是 关于 创造 模型 的 问题 。 正 如 图 3-3 所 未 ， 通 过 使 用 一 个 输入 数据 集 ， 模 型 
会 输出 一 个 结果 。 用 于 创建 模型 的 数据 集 称 为 模型 集 (model set) 。 当 模型 应 用 于 新 数据 时 ， 
称 为 得 分 集 〈score set) 。 模 型 集 由 如 下 3 部 分 组 成 ， 本 章 后 面 将 给 出 详细 讨论 : 

“训练 集 用 于 建立 模型 集 ; 
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。 验 证 集 2 用 于 选 出 模型 集中 最 好 的 一 个 模型 ; 
。 测 试 集 用 于 确定 模型 在 未 使 用 数据 上 的 工作 情况 。 


模型 
图 3-3 ”模型 利用 输入 产生 输出 


数据 挖掘 技术 可 以 为 3 类 任务 构造 3 种 模型 : 建立 描述 性 简 档 、 建 立定 向 简 档 〈direct- 
ed profiling) 和 预言 (prediction) ， 当 然 ， 它 们 之 间 的 区 别 并 不 总 是 明显 的 。 
描述 性 模型 描述 数据 中 存在 什么 ， 其 输出 通常 是 一 个 或 多 个 表 、 数 值 或 者 图 ， 解 释 当前 
正在 发 生 的 事情 。 假 设 测 试 经 常会 产生 描述 性 模型 。 另 一 方面 ， 建 立定 向 简 档 和 预测 在 模型 
建立 初期 都 有 一 个 预期 的 目标 ， 它 们 之 间 的 差别 与 时 间 帧 有 关 ， 如 图 3-4 所 示 。 在 简 档 模 型 
中 ， 输 出 和 输入 位 于 同样 的 时 间 帧 ， 而 在 预言 性 模型 中 ， 目 标 位 于 下 一 个 时 间 帧 。 预 测 意 味 
着 从 一 个 时 期 的 数据 中 发 现 模式 ， 用 来 解释 未 来 一 段 时 间 的 结果 。 之 所 以 强调 简 档 和 预测 的 
区 别 ， 是 因为 这 隐 含 了 建 模 方法 论 ， 尤 其 是 在 创建 模型 集 的 时 间 处 理 上 。 
输入 变量 目标 变量 


网 1 


24 25 26 27 28 
31 


预测 


相册 | 


输入 变量 目标 变量 
图 3-4 ”建立 简 档 和 预测 的 区 别 仅仅 在 于 输入 变量 和 目标 变量 的 时 间 帧 


提 “第 !1 版 中 把 模型 集 的 三 个 部 分 称 为 训练 集 、 测 试 集 和 评价 集 (evaluation set)。 作 者 仍然 喜爱 这 种 术语 ， 但 是 现在 数 
据 挖掘 界 的 标准 用 法 是 训练 集 / 验 证 集 (validation set) / 测试 集 。 为 避免 混淆 ， 本 版 采用 了 训练 集 / 验 证 集 / 钢 试 集 的 
命名 方法 。 
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3.3.1 建立 简 档 


建立 简 档 是 解决 很 多 问题 的 常见 方法 ， 无 需 包 含 任何 复杂 的 数据 分 析 。 例 如 ， 调 查 是 建 
工 客 户 简 档 普 遍 采 用 的 方法 。 调 查 揭示 客户 或 者 潜在 客户 的 外 表 特 征 ， 或 者 至 少 表明 被 调查 - 
的 响应 者 回答 问题 的 方式 。 

简 档 经 常 基于 人 口 统计 学 变量 ， 如 地 理 位 置 、 性 别 和 年 龄 。 央 为 广告 也 是 基于 同样 的 一 
些 变量 ， 人 口 统计 学 简 档 能 够 直接 转换 为 媒体 策略 。 简 单 的 简 档 可 用 于 设置 保险 费 ， 一 个 
17 岁 的 男士 比 一 个 60 岁 的 婆婆 在 汽车 保险 方面 的 费用 更 多 。 类 似 地 ， 简 单 的 人 寿 保险 政策 
条 款 的 申请 表 也 询问 客户 的 年 龄 、 性 别 以 及 吸烟 情况 ， 除 此 之 外 ， 问 得 不 多 。 

建立 简 档 尽 管 被 认为 是 一 种 强 有 力 的 工具 ， 依 然 存在 很 大 的 局 限 性 。 一 个 缺点 是 不 能 区 
分 因果 关系 。 只 要 简 档 是 基于 熟知 的 人 口 统计 学 变量 ， 这 一 点 关系 不 大 。 如 果 男 士 购买 的 啤 
酒 多 于 女士 ， 我 们 没有 必要 惊奇 喝 啤 酒 是 否 是 男性 化 的 原因 。 看 来 ， 假 设 联系 是 从 男士 到 啤 
酒 似乎 更 可 靠 ， 反 之 则 不 行 。 

对 于 行为 数据 ， 因 果 关 系 的 方向 通常 并 不 总 是 这 样 明显 。 考 察 下 面 来 自 实际 数据 挖掘 项 
目的 两 个 实例 : 

。 购 买 存款 证 书 (〈certificates of deposit，CD) 的 人 在 储蓄 存款 账户 中 只 有 一 点 钱 或 者 没 

有 钱 ; 

。 使 用 语音 邮件 的 人 多 次 短 时 间 呼 叫 自己 的 号 码 。 

不 在 储 曹 存款 账户 中 存款 是 存款 证 书 拥有 者 的 普遍 行为 ， 正 如 男士 普遍 喝 啤 酒 一 样 。 啤 
酒 公司 挑 出 男士 ， 向 他 们 销售 产品 ， 那 么 银行 是 否 应 该 找 出 储蓄 存款 账户 中 没有 存款 的 客 
户 ， 以 便 向 他 们 销售 存款 证 书 ? 大 概 不 会 。 推 测 起 来 ， 存 款 证 书 拥有 者 在 储 车 存款 账户 中 没 
有 存款 ， 大 概 他 们 用 存款 购买 了 存款 证 书 。 而 储 蕃 存 款 账 户 中 没有 存款 的 普遍 原因 可 能 是 客 
户 根本 没有 钱 ， 但 没 钱 的 人 通常 不 可 能 购买 存款 证 书 。 类 似 地 ， 语 音 邮 件 用 户 多 次 呼叫 自己 
的 号 码 ， 是 用 这 种 特殊 的 方式 检查 语音 邮件 。 这 种 模式 无 助 于 发 现 光 在 客户 。 


3.3.2 预测 


简 档 用 过 去 的 数据 描述 过 去 发 生 的 事情 。 预 测 向 前 迈进 了 一 步 。 预 测 用 过 去 的 数据 预测 
未 来 可 能 发 生 的 事情 ， 这 是 数据 作用 更 大 的 一 种 应 用 。 低 存款 额 和 存款 证 书 拥有 者 之 间 的 联 
系 可 能 在 存款 证 书 拥有 者 的 简 档 中 毫 无 用 处 ， 倒 是 那些 高 额 存 款 者 〈 结 合 其 他 线索 ) 极 有 可 
能 是 未 来 的 存款 证 书 购买 者 。 

建立 预言 性 模型 需要 在 模型 的 输入 (预测 器 ) 和 模型 的 输出 〈 预 测 的 结果 ) 时 间 上 有 一 
段 间隔 。 如 果 没 有 间隔 ， 模 型 将 不 起 作用 。 这 个 例子 说 明 为 什么 要 遵循 正确 的 数据 挖掘 方 
法 论 。 

3.4 方法 论 

数据 挖掘 的 方法 论 包括 11 步 。 

1) 将 商业 问题 转换 为 数据 挖掘 问题 。 

2) 选取 合适 数据 。 

3) 设法 理解 数据 。 
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4) 创建 模型 集 。 

5) 修复 数据 问题 。 

6) 变换 数据 ， 获 取信 息 。 

7) 建立 模型 。 

8) 评估 模型 。 

9) 部 署 模型 。 

10) 评估 结果 。 

11) 重新 开始 。 

如 图 3-$ 所 示 ， 数 据 挖掘 进程 最 好 视 为 一 组 交叉 的 网 状 循环 而 不 是 一 条 直线 。 各 步骤 之 
间 确 实 存在 一 个 自然 顺序 ， 但 是 没有 必要 或 苛求 完全 结束 某 个 步骤 后 才 进 行 下 一 步 。 后 面 几 
步 中 获取 的 信息 可 能 要 求 重新 考察 前 面 的 步骤 。 


将 商业 问题 
转换 为 数据 
挖掘 问 题 


罗 ] 


寺 
囊 角 
(6) 
ae 变换 数据 


图 3-5 数据 挖掘 不 是 线性 过 程 


3.4.1 第 一 步 : 将 商业 问题 转换 为 数据 挖掘 问题 


《爱丽 丝 漫游 奇 境 》 中 精彩 的 一 幕 是 爱丽 丝 向 此 郡 猫 问 路 的 那 一 段 : 
“请 你 告诉 我 ， 离 开 这 里 应 该 走 哪 条 路 ?” 
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“这 要 看 你 起 上 哪儿 去 ,” 猫 说 。 

“去 哪里 ， 我 不 大 在 乎 ”爱丽 丝 说 。 

“ 那 你 走 哪 条 路 都 没关系 。” 猫 说 。 

“只 要 能 走 到 一 个 地 方 。” 爱丽 丝 又 补充 了 一 名 。 

“ 蛾 ， 那 行 ,” 猫 说 ,“ 只 要 你 走 得 很 远 的 话 。 

柴 郡 猫 可 能 添加 了 假设 : 如 果 无 法 确定 目的 地 ， 便 永远 无 法 分 清 你 是 否 走 了 足够 远 。 真 
正 的 数据 挖掘 项 目的 目标 是 为 给 定 的 商业 问题 提供 解决 方案 。 特 定 项 目的 数据 挖掘 目标 不 应 
该 泛泛 陈述 ， 如 ， 

。 更 好 地 理解 客户 行为 

。 发 现 数据 中 有 意义 的 模式 

。 获 取 有 意义 的 信息 

这 些 目标 都 很 有 价值 ， 但 即使 达到 了 这 个 目标 也 很 难 测 量 。 难 于 测量 的 项 目 也 就 难以 评 
价 其 价值 。 无 论 什 么 情况 下 ， 泛 泛 的 目标 应 该 拆 分 成 具体 的 目标 ， 以 便于 监控 实现 进程 。 更 
好 地 理解 客户 行为 可 以 拆 分 为 以 下 具体 的 目标 : 

。 识别 不 可 能 再 次 订阅 的 用 户 ; 

。 设计 话费 套餐 ， 减 少 居家 商业 客户 〈home-based business customer) 的 流失 ; 

。 基 于 滑雪 倾向 给 所 有 客户 排序 ; 

。 假如 停止 销售 葡萄 酒 和 啤酒 ， 列 出 面临 销售 风险 的 产品 。 

这 些 具体 的 目标 不 仅 易于 监控 ， 也 易于 转换 为 数据 挖掘 的 问题 。 

1. 什么 是 数据 挖掘 问题 

商业 问题 转换 为 数据 挖掘 问 题 时 ， 应 该 表示 为 第 1 章 介绍 的 6 类 数据 控 据 任务 之 一 的 
形式 : 
。 分 类 
。 佑 计 
。 预 测 
*。 关 联 分 组 
。 聚 类 
。 描 述 和 建立 简 档 
这 是 使 用 本 书 描述 的 技巧 可 以 完成 的 一 些 任务 ， 尽 管 没 有 哪个 单独 的 数据 挖 据 工 具 或 技 
巧 对 所 有 任务 同样 适用 。 

前 三 项 任务 : 分 类 、 估 计 和 预测 是 定向 数据 控 掘 (directed data mining) 的 例子 。 关 联 
分 组 和 聚 类 是 非 定 向 数据 挖 据 (indirected data mining) 的 例子 。 简 档 既 可 能 是 定向 也 可 能 
是 非 定 向 的 。 定 向 数据 挖掘 总 是 有 一 个 目标 变量 ， 表 示 分 类 、 估 计 和 预测 的 事情 。 建 立 一 个 
分 类 器 的 过 程 可 以 从 一 系列 预定 义 类 的 集合 和 已 经 正确 分 类 的 记录 样本 开始 。 类 似 地 ， 建 立 
估计 器 的 过 程 以 历史 数据 开始 ， 其 中 目标 变量 的 值 是 已 知 的 。 建 模 的 任务 就 是 发 现 用 于 解释 
目标 变量 已 知 值 的 规则 。 

在 非 定向 数据 挖掘 中 ， 没 有 目标 变量 。 数 据 挖 掘 的 任务 是 发 现 不 依赖 任何 一 个 变量 的 总 
模式 。 非 定向 数据 挖掘 的 最 普遍 形式 是 聚 类 ， 即 不 考虑 哪个 变量 是 最 重要 的 情况 下 ， 发 现 相 
似 记录 的 分 组 。 非 定向 数据 挖掘 本 质 上 是 描述 性 的 ， 因 此 经 常用 于 建立 简 档 ， 但 是 决策 树 等 
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定向 技术 对 建立 简 档 也 很 有 用 。 在 机 器 学 习 文 献 中 ， 定 向 数据 挖掘 称 为 有 指导 的 学 习 (su- 
pervised learning)， 非 定向 数据 控 据 称 为 无 指导 的 学 习 (unsupervised learning)。 

2. 如 何 应 用 挖 据 结 果 

这 是 确定 如 何 把 商业 问题 很 好 地 转化 为 数据 控 据 问题 时 最 重要 的 问题 。 不 可 思议 的 是 ， 
最 初 经 常 的 回答 是 :“ 我 们 不 能 确定 ”。 有 一 个 答案 是 至 关 重 要 的 ， 即 不 同 的 预期 应 用 要 求 不 
同 的 解决 方案 。 

例如 ， 很 多 数据 挖掘 的 约定 是 为 改善 客户 的 持久 力 而 设计 。 这 种 研究 的 结果 可 以 应 用 在 
以 下 任意 一 种 情形 : 

* 抢先 联络 高 风险 /高 价值 的 客户 ， 并 提供 优惠 待遇 ， 使 他 们 乐意 留 下 ; 

* 改变 获取 渠道 的 组 合 ， 以 期 带 来 最 忠诚 的 客户 ; 

。 预 报 未 来 数 月 的 客户 群体 状况 ; 

*。 改变 产品 ， 修 正 使 客户 流失 的 不 足 之 处 。 

这 些 目标 中 的 任何 一 个 都 与 一 个 数据 控 气 过 程 有 关 。 通 过 电话 销售 或 直接 邮寄 活动 联络 
现 有 的 客户 ， 意 味 着 除了 确认 风险 客户 之 外 ,还 能 够 了 解 他 们 为 什么 处 于 风险 状态 ， 因 此 可 
以 构想 有 吸引 力 的 优惠 政策 ;并 且 了 解 他 们 什么 时 间 将 处 于 风险 状态 ， 因 此 可 以 在 非常 恰当 
的 时 间 联 络 他 们 。 预 报 意味 着 除了 确认 哪些 现 有 客户 可 能 离开 之 外 ， 还 可 以 确定 可 能 增加 多 
少 新 客户 ， 以 及 他 们 可 能 停留 多 长 时 间 。 预 测 新 客户 可 能 停留 多 长 时 间 的 问题 ， 通 常 包含 在 
商业 目标 和 预算 中 ， 不 是 预言 性 建 模 的 问题 。 

3， 以 何 种 方式 交付 结果 

数据 挖掘 计划 可 能 有 几 种 不 同类 型 的 交付 方式 。 如 果 最 初 的 数据 挖掘 目标 是 获得 市 场 了 
解 ， 交 付 方 式 通常 是 一 份 充满 图 或 表格 的 报告 或 介绍 。 如 果 该 项 目 是 一 个 一 次 性 的 概念 验证 
或 者 小 规模 试验 计划 ， 交 付 方 式 可 能 是 包含 在 将 来 的 销售 试验 中 获得 不 同 待遇 的 客户 列表 。 
当 数 据 挖掘 项 目 是 正在 进行 的 客户 关系 管理 分 析 的 一 部 分 时 ， 交 付 方式 极 可 能 是 一 个 或 者 一 
系列 计算 机 程序 ， 可 以 定期 运行 ， 给 客户 群体 中 预定 义 的 子 集 打 分 ， 并 且 随 时 间 和 另外 的 软 
件 一 起 管理 模型 和 评分 。 交 付 方 式 可 能 影响 挖掘 的 结果 。 假 如 目标 是 使 销售 管理 人 员 产 生 深 
刻印 象 ， 只 给 出 销售 测试 产生 的 客户 列表 是 远 远 不 够 的 。 

4. 商业 用 户 和 信息 技术 的 角色 

正如 第 2 章 所 述 ， 获 得 以 上 问题 的 正确 解决 方案 的 惟一 方法 是 让 商业 问题 的 所 有 者 参与 
其 中 ， 判 断 将 如 何 应 用 数据 挖掘 的 结果 ， 让 IT 员工 和 数据 库 管 理 员 参 与 ， 来 判断 如 何 交 付 
结果 。 通 常 同时 在 企业 内 部 和 合适 的 外 部 领域 广泛 收集 数据 是 非常 有 用 的 。 我 们 建议 把 企业 
各 部 门 的 代表 集中 到 一 起 ， 而 不 是 分 别 单独 会 见 他 们 。 用 这 种 方式 ， 具 有 不 同 知识 领域 的 人 
和 专家 有 机 会 相互 交流 各 自 的 思想 。 所 有 这 些 磋 商 的 目标 是 获得 所 讨论 的 商业 问题 的 清晰 陈 
述 。 最 终 的 商业 问题 陈述 必须 尽 可 能 具体 。“ 确 认 10 000 位 重量 级 客户 极 有 可 能 在 未 来 的 60 
天 之 内 流失 ” 比 “ 为 所 有 客户 的 流失 可 能 性 打分 ”更 好 。 


误解 商业 问题 ; 一 个 有 警 诚意 义 的 事件 
作为 数据 挖掘 者 ， 受 一 个 大 的 包装 消费 品 厂商 的 委托 ， 作 者 曾经 担任 顾问 ， 参 与 分 析 超 
级 市 场 患 诚 卡 的 数据 。 理 顺 这 些 关 系 ， 可 以 了 解 一 点 关于 超级 市 场 行业 的 信息 。 一 般 来 说 ， 
超级 市 场 不 关心 客户 购买 可 只 可 乐 还 是 百事 可 乐 (除非 其 中 一 个 品牌 正在 促销 ， 因 而 带 来 更 
高 的 利润 )， 只 要 客户 购买 软饮料 就 行 。 供 应 商 则 非常 关心 销售 了 哪 种 品牌 ， 争 取 管 理 商 店 
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整体 分 类 的 机 会 。 而 销售 分 类 的 管理 者 ， 能 够 控制 自己 或 者 竞争 对 手 的 产品 销售 。 客 户 希望 
展示 使 用 患 诚 卡 改 善 分 类 管理 的 能 力 。 挑 选 出 来 用 于 展示 的 分 类 是 酸奶 酷 ， 因 为 根据 超级 市 
场 的 标准 ， 酸 奶 酷 是 高 利润 产品 。 

正如 我 们 理解 的 一 样 ， 商 业 问 题 的 目标 是 确定 喜欢 酸奶 酷 的 人 。 为 创建 一 个 目标 变量 ， 
我 们 根据 一 年 内 酸奶 酷 的 全 部 购买 量 ， 把 患 诚 卡 客 户 分 成 高 、 中 、 低 酸奶 酷 关 联 分 组 ， 并 且 
根据 他 们 购买 酸奶 酷 的 花费 在 全 部 消费 额 中 的 比例 把 客户 分 为 高 、 中 、 低 客户 。 把 在 两 种 度 
量 中 都 属于 高 级 客户 的 消费 者 标记 为 喜欢 酸奶 酷 的 人 。 

交易 数据 需要 经 历 很 多 变换 ， 最 终 才能 变 为 客户 特征 。 输 入 变量 包含 以 下 项 : 在 一 天 的 
不 同时 间 和 不 同 分 类 中 购买 酸奶 酷 的 次 数 以 及 消费 金额 占 任何 购买 分 类 、 购 买 频率 、 平 均 订 
货 规模 和 其 他 行为 变量 的 比例 。 

使 用 这 些 数据 ， 我 们 建立 了 一 个 模型 ， 给 每 一 位 客户 一 个 酸奶 酷 喜 爱 程度 得 分 。 拥 有 这 
样 的 得 分 后 ， 当 可 能 的 酸奶 酷 喜爱 者 付 账 离开 时 ， 就 可 以 打印 关于 酸奶 酷 的 优惠 券 ， 尽 管 他 
们 这 次 可 能 没有 购买 酸奶 酷 。 该 模型 甚至 可 以 确认 好 的 洪 在 客户 ， 尽 管 这 些 潜在 客户 还 没有 
与 内 部 的 酸奶 酷 喜 爱 者 有 任何 联系 ， 但 是 如 果 给 予 优惠 券 ， 他 们 有 可 能 立刻 成 为 酸奶 栈 喜 
爱 者 。 

该 模型 很 令 人 鼓舞 ， 我 们 对 此 非常 满意 。 然 而 委托 人 却 失 望 了 。 “但 是 ， 谁 才 是 喜爱 酸 
奶 酷 的 人 ?” 委 托 人 问 道 ,“ 在 该 模型 中 得 高 分 的 人 ”未 必 就 是 委托 人 想 要 的 回答 。 客 户 要 寻 
求 的 是 类 似 “ 喜 爱 酸 奶 酷 的 人 是 年 龄 在 工 和 y 之 间 的 女士 ， 她 们 住 在 平均 家 庭 收 入 介 于 M 
和 AN 之 间 的 地 区 "。 像 这 样 的 描述 可 以 用 于 决定 在 亏 里 投放 广告 ， 以 及 如 何 制作 有 创意 的 广 
告 内 容 。 由 于 我 们 的 模型 建立 在 购物 行为 而 不 是 人 口 统 计 学 基础 上 ， 因 此 不 能 满足 客户 的 
要 求 。 

在 这 些 讨论 中 ， 数 据 挖掘 者 的 角色 主要 是 确保 商业 问题 的 最 终 陈述 是 那些 可 以 顺利 转换 
为 数据 挖掘 问题 的 陈述 。 和 否则 ， 世 界 上 最 好 的 数据 控 据 工作 可 能 被 用 于 解决 一 个 错误 的 商业 
问题 。 

通常 把 数据 挖掘 表现 为 一 个 技术 问题 ， 即 找到 一 种 模型 来 解释 目标 变量 到 输入 变量 群体 
之 间 的 关系 。 这 类 技术 任务 对 大 多 数 数 据 挖 掘 工 作 来 说 确实 非常 重要 。 但 是 在 精确 确定 目标 
变量 和 确认 合适 的 输入 变量 之 前 ， 不 能 尝试 这 件 事情 。 这 反 过 来 依赖 于 对 所 讨论 的 商业 问题 
的 良好 理解 。 就 像 前 面 讲 的 故事 “误解 商业 问题 ”一 样 ， 若 不 能 正确 地 把 商业 问题 转换 为 数 
据 挖 掘 问题 ， 会 导致 我 们 试图 避免 的 危险 发 生 ， 即 获取 的 内 容 是 真实 的 ， 但 却 没 有 用 处 。 

要 完整 地 把 一 个 商业 问题 转换 为 数据 挖掘 问题 ， 建 议 参 考 我 们 的 同事 Dorian Pyle 所 著 
的 Busiress Modelizg azd Data Mining 一 书 ， 书 中 对 “如 何 发 现 数据 控 据 受益 最 大 的 商业 问 
题 ”以 及 “如 何 为 数据 挖掘 明确 地 表达 出 这 些 问题 ”方面 给 出 了 详细 的 建议 。 作 者 在 此 仅 提 
醒 读者 ， 在 进行 实际 的 数据 挖掘 过 程 之 前 ， 考 虑 两 个 重要 的 问题 : 结果 将 如 何 应 用 ? 结果 将 
以 何 种 形式 交付 ? 从 第 革 个 问题 的 答案 到 第 2 个 问题 的 答案 ， 仍 然 需要 一 个 很 长 的 过 程 。 


3.4.2 第 二 步 : 选取 合适 数据 


数据 挖掘 需要 数据 。 在 所 有 可 能 的 情况 中 ， 最 好 是 所 需 数据 已 经 存储 在 共同 的 数据 仓库 
中 ,经 过 清理 ， 数 据 可 用 ， 历 史 精 确 并 且 经 常 更 新 。 事 实 上， 它们 经 常 以 不 兼容 的 形式 散 列 
在 各 种 操作 系统 平台 的 计算 机 上 ， 这 些 计算 机 之 间 运 行 着 不 同 的 操作 系统 ， 通 过 不 兼容 的 桌 
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面 工具 来 访问 。 

当然 ， 根 据 问题 和 产业 不 同 ， 有 意义 的 和 可 用 的 数据 源 (data source) 也 不 同 。 一 些 有 
益 数 据 的 例子 如 下 : 

。 保质 期 内 索赔 数据 〈 包 括 固定 格式 的 数据 和 自由 文本 字段 ) 

“销售 点 数据 〈 包 括 环形 码 、 提 供 的 优惠 券 、 折 扣 ) 

。 信 用 卡 收费 记录 

。 医 疗 保险 索赔 数据 (medical insurance claims data) 

。 网 络 日 志 数 据 

。 电 子 商 务 服务 器 应 用 程序 日 志 

* 直接 邮寄 响应 记录 

“呼叫 中 心 记录 ， 包 括 呼叫 中 心 人 员 摆 写 的 备忘录 

。 打 印 机 的 运行 记录 

。 机 动车 登记 记录 (motor vehicle registration record) 

“。 安放 在 机 场 附 近 的 社区 中 的 扩 音 器 产生 的 噪声 分 贝 

* 电话 呼叫 详细 记录 

。 调 查 响 应 数据 (survey response data) 

“人口 统 计 和 生活 方式 数据 

*“ 产 、 供 、 销 数据 

。 每 小 时 天 气 情况 〈 风 向 、 风 力 、 降 雨量 ) 

。 人 口 普查 数据 

一 旦 商业 问题 完成 公式 化 ， 就 可 以 构造 一 个 拥有 最 佳 数据 的 数据 列表 。 对 于 研究 现 有 客 
户 来 说 ， 需 要 包括 从 他 们 成 为 客户 的 那 一 刻 起 的 数据 (数据 获取 渠道 、 获 取 日 期 、 最 初 的 产 
品 组 合 、 最 初 的 信用 评分 ， 等 等 ) ， 描 述 他们 当前 状态 的 类 似 数据 ， 以 及 客户 保有 期 内 积聚 
的 行为 数据 。 当 然 ， 不 可 能 从 数据 列表 中 找到 所 有 数据 ， 但 是 最 好 从 你 想 找 到 什么 数据 
着 手 。 

有 时 候 ， 开 始 一 项 数据 挖掘 项 目 之 初 并 没有 一 个 特定 的 商业 问题 。 公 司 意识 到 从 收集 的 
数据 不 能 得 到 很 高 的 价值 ， 开 始 思考 通过 数据 挖掘 是 否 会 使 数据 更 有 价值 。 这 类 项 目 成 功 的 
秘诀 在 于 把 它 转换 为 一 项 为 解决 特定 问题 而 设计 的 项 目 。 第 一 步 是 探索 可 用 的 数据 ， 写 出 候 
选 商业 问题 列表 ， 邀 请 商业 用 户 创 造 一 个 非常 长 的 待 选 列表 ， 然 后 将 其 简化 成 少数 可 以 达到 
的 目标 ， 即 数据 挖掘 的 问题 。 

1. 什么 数据 可 用 

寻找 数据 的 首选 是 公司 的 数据 仓库 。 仓 库 中 的 数据 是 已 经 清理 、 校 验 过 ， 并 且 已 把 多 种 
数据 源 整合 。 单 个 数据 模型 有 希望 保证 类 似 命 名 的 字段 在 整个 数据 库 中 有 同样 的 意义 和 相 容 
的 数据 类 型 。 公 司 数 据 仓 库 是 历史 仓库 ， 可 以 增加 新 的 数据 ， 但 历史 数据 永远 不 再 改变 。 因 
为 它 为 决策 支持 而 设计 ， 数 据 仓 库 提 供 详细 的 数据 ， 可 以 聚 类 到 正确 的 层次 ， 以 利于 数据 控 
气 。 第 15 章 更 加 详尽 地 讲述 数据 挖掘 和 数据 仓库 之 间 的 关系 。 

惟一 的 问题 是 ， 在 许多 机 构 这 样 的 数据 仓库 并 不 存在 ， 或 者 存在 一 个 或 者 多 个 数据 仓 
库 ， 但 是 不 能 达到 上 述 要 求 。 在 这 种 情况 下 ， 数 据 挖 据 人 员 必 须 从 各 部 门 数 据 库 和 操作 系统 
内 部 寻找 数据 。 操 作 系统 是 为 完成 特定 的 任务 而 设计 ， 如 索赔 处 理 、 呼 叫 转换 、 订 货 登 记 或 
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者 付 账 等 ， 最 初 的 设计 目的 是 快速 、 准 确 地 处 理 交易 。 不 管 数据 的 格式 如 何 ， 目 的 是 很 好 地 
适合 特定 目标 ， 如 果 有 历史 数据 的 话 ， 也 可 能 存储 在 磁带 存储 器 。 也 许 需要 大 量 的 规章 调整 
和 编程 工作 ， 才 能 得 到 对 知识 发 现 有 益 的 数据 格式 。 

有 时 候 ， 为 了 支持 数据 ， 可 能 要 改变 操作 过 程 。 我 们 知道 有 一 位 目录 销售 商 希 望 分 析 客 
户 的 购买 习惯 ， 以 便 对 新 客户 和 持久 客户 进行 不 同 的 销售 。 不 幸 的 是 ， 在 过 去 的 6 个 月 之 内 
没有 订购 任何 东西 的 人 被 从 记录 中 例 行 清除 。 忠 诚 地 使 用 目录 在 圣诞 节 购 物 ， 而 在 一 年 的 其 
他 时 间 没 有 购买 东西 的 大 多 数 人 都 没有 被 识别 ， 事 实 上 是 不 可 识别 ， 一 直到 公司 开始 保存 历 
史 数 据 ， 这 种 情况 才 被 改变 。 

在 很 多 公司 中 ， 想 确定 什么 数据 可 用 是 非常 困难 的 ， 因 为 档案 资料 经 常 竺 失 或 过 期 。 通 
常 而 言 ， 没 有 任何 人 能 够 提供 所 有 问题 的 答案 。 想 确定 什么 数据 可 用 ， 需 要 仔细 查阅 数据 ， 
与 用 户 和 数据 库 管 理 员 交流 ， 或 者 仔细 检查 已 有 的 报告 。 

警告 ; 使 用 数据 库 文档 和 数据 字典 作为 指南 ， 但 是 不 要 视 之 为 一 成 不 变 的 事实 。 在 

表 中 定义 的 字段 或 者 在 文档 中 提 到 的 字段 ， 不 能 说 明 字段 的 存在 ， 这 实际 上 对 所 有 

客户 都 可 用 。 

2. 多 少数 据 够 用 

遗憾 的 是 ， 这 个 问题 没有 一 个 简单 的 答案 。 答 案 依 赖 于 所 使 用 的 特别 算法 、 数 据 复杂 
度 、 可 能 结果 的 相对 频繁 程度 。 统 计 学 家 已 经 花费 数 年 时 间 开 发 测试 手段 ， 以 确定 产生 模型 的 
最 小 模型 集 。 机 器 学 习 研 究 人 员 花 费 很 多 时 间 和 精力 设计 方法 ， 使 得 训练 集 的 一 部 分 可 以 重用 
于 验证 和 测试 。 所 有 这 些 工 作 忽略 了 重要 的 一 点 : 在 商业 界 ， 统 计 学 家 很 缺乏 ， 而 数据 很 多 。 

任何 情况 下 ， 如 果 数据 缺乏 的 话 ， 数 据 挖掘 不 仅 有 效 性 差 ， 而 且 不 大 可 能 有 用 。 当 小 型 
数据 库 中 相当 大 量 的 数据 掩盖 了 可 探查 到 的 模式 时 ， 数 据 挖掘 最 有 用 。 因 此 我 们 建议 使 用 足 
够 多 的 数据 ， 使 得 不 会 出 现 “ 足 够 大 的 样本 集 的 规模 是 多 少 ” 这 个 问题 。 即 使 不 采用 数 以 百 
万 计 的 预 分 类 记录 ， 我 们 一 般 也 会 采用 数 万 条 记录 ， 以 保证 训练 集 、 验 证 集 、 测 试 集 都 包含 
上 千 条 记录 。 

在 数据 挖掘 中， 数据 越 多 越 好 ， 但 是 有 几 个 忠告 。 第 一 个 忠告 是 关于 模型 集 的 规模 和 密 
度 〈density) 的 关系 。 密 度 指 的 是 利益 输出 的 普遍 性 。 通 常 ， 目 标 变 量 代表 相对 稀有 的 事 
情 。 潜 在 客户 很 少 响应 直接 邮寄 广告 ， 信 用 卡 持 卡 人 很 少 敬 诈 ， 报 纸 订 阅 者 很 少 在 指定 的 某 
个 月 取消 订阅 。 正 如 本 章 后 面 〈 创 建 模型 集 部 分 ) 要 讨论 的 ， 在 创建 模型 的 过 程 中 ， 最 好 使 
每 个 模型 集 的 各 个 输出 数量 大 致 相同 。 一 个 较 小 的 均衡 样本 比 含有 稀有 输出 比例 极 低 的 较 大 
样本 更 可 取 。 

第 二 个 忠告 与 数据 挖 握 人 员 的 时 间 有 关 。 当 模型 集 大 到 足以 建立 一 个 很 好 的 、 稳 定 的 模 
型 ， 再 增 大 模型 集 反 而 会 有 负面 的 影响 ， 因 为 在 更 大 的 数据 集 上 ， 每 件 事情 都 要 花费 更 长 的 
时 间 。 由 于 数据 挖掘 是 一 个 反复 的 迁 代 过 程 ， 如 果 建 模 过 程 的 每 一 步 运行 时 间 不 是 数 分 钟 而 
是 数 小 时 的 话 ， 等 待 时 间 可 能 变 得 非常 长 。 

测试 用 于 建 模 的 样本 规模 是 否 足 够 大 的 一 个 简单 办 法 是 ， 试 着 加 倍 样本 数 ， 测 试 模型 精 
度 的 变化 。 如 果 用 大 的 数据 样本 创建 的 模型 比 使 用 小 的 样本 创建 的 模型 要 好 得 多 ， 那 么 小 的 
样本 不 够 大 。 如 果 没 有 任何 变化 ， 或 者 仅 有 微弱 的 变化 ,那么 原来 的 样本 可 能 是 合适 的 。 

3. 需要 多 少 历史 数据 

数据 挖掘 使 用 过 去 的 数据 预测 未 来 。 但 是 需要 多 久 以 前 的 数据 才 合 适 呢 ? 这 是 另 一 个 没 
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有 简单 答案 的 简单 问题 。 要 考虑 的 第 1 个 问题 是 季节 性 ， 大 多 数 商 业 活动 都 表现 出 一 定 程度 
的 季节 性 : 第 4 季度 的 销售 上 升 ， 休 闲 旅 游 在 夏季 升温 ， 等 等 ， 应 该 有 足够 的 历史 数据 来 捕 
捉 这 类 周期 性 事件 。 

另 一 个 方面 ， 由 于 销售 条 件 的 改变 ， 太 久远 的 数据 可 能 无 益 于 数据 挖掘 ， 特 别 是 受 一 些 
外 部 事件 的 影响 ， 如 政治 制度 的 调整 变化 等 ， 就 更 会 出 现 这 种 情况 。 对 很 多 面向 客户 的 数据 
挖掘 来 说 ，2 一 3 年 的 历史 数据 就 是 合适 的 。 即 使 在 这 种 情况 下 ， 关 于 客户 关系 建立 初始 时 
的 数据 常常 是 很 有 价值 的 ， 例 如 ， 初 始 渠 道 是 什么 ， 初 始 的 优惠 条 件 是 什么 ， 客 户 最 初 如 何 
支付 ， 等 等 。 

4. 需要 多 少 变量 

没有 经 验 的 数据 挖掘 者 经 常 匆匆 忙 忙 删 掉 一 些 看 来 不 太 有 意义 的 变量 ， 保 留 仔细 挑选 后 
他 们 认为 很 重要 的 少数 几 个 变量 。 数 据 挖掘 的 方法 提倡 让 数据 本 身 揭 示 哪 些 变量 重要 ， 哪 些 
不 重要 。 

最 初 包 略 的 变量 ， 如 果 结 合 其 他 变量 使 用 ， 经 常 被 证 明 有 预言 性 价值 。 例 如 ， 在 一 个 信 
用 卡 发 行者 的 客户 利润 模型 中 ， 从 来 没有 包含 过 现金 预付 ， 通 过 数据 控 据 发 现 ， 只 在 11 月 
和 12 月 使 用 现金 预付 的 客户 是 非常 有 利 可 图 的 。 这 些 人 大 概 非 常 谨 慎 ， 他 们 大 部 分 的 时 间 
避免 在 高 贷款 利率 情况 下 借款 (谨慎 使 他 们 更 不 大 可 能 比 习 惯性 使 用 现金 预付 的 客户 拖欠 还 
贷 )， 但 是 他 们 过 节 期 间 需 要 额外 的 一 些 现金 ， 并 且 愿 意 付出 昂贵 的 利息 来 得 到 它 。 

最 后 的 模型 通常 基于 几 个 变量 ， 但 是 这 些 变量 经 常 是 结合 一 些 其 他 变量 而 产生 的 ， 往 往 
开始 时 并 不 明显 ， 最 后 却 发 现 很 重要 。 

5. 数据 必须 包含 什么 

数据 至 少 要 包含 所 有 可 能 的 有 意义 的 结果 的 例子 。 在 定向 数据 挖掘 中 ， 目 标 是 预测 特定 
目标 变量 的 值 ， 有 一 个 由 预 分 类 数据 构成 的 模型 集 至 关 重 要 。 为 了 区 别 可 能 拖欠 贷款 的 人 和 
不 可 能 拖欠 贷款 的 人 ， 需 要 从 每 个 类 取出 上 千 个 例子 建立 模型 ， 以 便于 区 分 。 假 如 有 新 的 申 
请 者 ， 把 他 或 她 的 申请 和 过 去 的 客户 比较 ， 可 以 采用 基于 存储 信息 的 推理 进行 直接 比较 ， 也 
可 以 采用 源 于 历史 数据 的 规则 或 神经 网 络 进行 间接 比较 。 如 果 发 现 新 的 申请 人 “看 来 ”会 像 
过 去 有 过 拖欠 的 人 一 样 ， 他 就 会 被 拒绝 。 

隐 含 在 这 一 描述 中 的 观点 是 ,我们 可 能 知道 过 去 发 生 的 事情 。 从 过 去 的 错误 中 吸取 教 
训 ， 首 先 应 该 认识 到 所 犯 的 错误 ， 这 种 事情 并 不 总 是 可 能 的 。 一 个 公司 不 得 不 放弃 使 用 定向 
知识 发 现 来 创建 保险 索赔 欺骗 模型 的 尝试 ， 尽 管 他 们 怀疑 其 中 的 一 些 索赔 具有 欺骗 性 ， 但 是 
无 法 说 明 到 底 哪些 是 欺骗 性 的 。 没 有 一 个 包含 明确 标识 为 欺骗 性 还 是 合法 性 的 保险 索赔 训练 
集 ， 就 无 法 使 用 这 些 技术 。 另 一 个 公司 希望 创建 一 个 直接 邮寄 响应 模型 ， 但 是 仅 支持 对 过 去 
活动 响应 者 的 数据 ， 没 有 包含 非 响 应 者 的 任何 信息 ， 所 以 也 无 法 进行 比较 。 


3.4.3 第 三 步 : 设法 理解 数据 


在 开始 建立 模型 之 前 ， 无 论 化 多 少时 间 研 究 数 据 都 是 值得 的 。 正 是 由 于 这 个 过 程 的 重要 
性 ， 在 第 17 章 中 将 会 详细 讨论 这 个 主题 。 好 的 数据 挖掘 人 员 在 很 大 程度 上 依赖 于 直觉 (in- 
tuition) 一 一 比如 在 某 种 情况 下 能 够 猜 出 一 个 好 的 衍生 变量 可 能 是 什么 样 的 。 培 养 这 种 直 党 
的 惟一 方法 就 是 全 身心 地 投入 到 陌生 的 数据 集合 中 。 这 样 你 就 有 可 能 发 现 许多 数据 质量 问 
题 ， 受 到 更 多 启发 ， 去 问 许多 其 他 方式 下 不 会 想到 的 问题 。 
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1. 检查 分 布 状况 

一 个 良好 的 开端 是 检查 数据 集中 的 每 一 个 变量 的 直方 图 ， 并 考虑 这 些 直方 图 说 明了 什么 
问题 。 所 有 看 上 去 不 同一 般 的 东西 都 要 记 下 来 。 如 果 有 一 个 州 代码 变量 ， 代 表 加 州 的 直方 块 
是 不 是 最 高 的 ?如果 不 是 ， 为 什么 ? 是 不 是 漏 掉 了 某 些 州 ?如果 是 ， 这 个 公司 在 那些 州 没有 
商务 活动 合理 吗 ? 如 果 有 一 个 性 别 变量 ， 男 性 和 女性 的 数量 是 不 是 差不多 ? 如 果 不 是 ， 是 否 
出 平 意料 ? 要 注意 检查 每 一 个 变量 的 范围 。 计 数 变量 是 否 取 成 负 值 ? 变量 的 最 高 值 和 最 低 值 
看 起 来 是 合理 的 赋值 吗 ? 平均 值 是 不 是 与 中 间 值 的 差别 很 大 ? 丢失 了 多 少数 值 ? 变量 计数 与 
时 间 一 致 吗 ? 

提示 : 一 旦 从 新 的 数据 源 获得 了 数据 文件 ， 为 了 了 解 下 一 步 要 做 的 事情 ， 为 数据 建立 

简 档 是 一 个 好 办 法 ， 包 括 获取 每 个 字段 的 计数 和 概要 统计 、 计 算 分 类 变量 的 不 同 取 值 

的 数量 ， 如 果 需 要 的 话 ， 使 用 交叉 表 来 显示 数据 ， 比 如 根据 产品 和 地 区 来 显示 销售 

量 。 除 了 提供 对 数据 的 深入 了 解 外 ， 建 立 简 档 的 训练 有 可 能 产生 关于 不 一 致 性 或 者 清 

晰 度 问题 的 警告 标志 ， 这 些 不 一 致 性 或 者 清晰 度 问题 会 破坏 以 后 分 析 的 有 效率 。 

在 研究 数据 库 的 初始 阶段 ， 数 据 可 视 化 工具 是 非常 有 用 的 。 图 3-6 显示 的 是 2000 年 纽 
约 州 人 口 普查 的 一 些 数据 。 (这 个 数据 集 可 以 从 www.data-miners.com/companion 下 载 ， 网 
站 上 还 有 一 些 使 用 这 个 数据 集 的 练习 题 。) 黑色 的 条 表示 在 那些 县 中 使 用 木材 取暖 的 家 庭 超 
过 15% 的 村 镇 比例 。( 在 纽约 ， 村 镇 是 县 的 下 属 机 构 ， 一 个 村 镇 可 能 包含 一 体 化 的 乡村 或 者 
城市 ， 也 可 能 不 包含 。 如 Cortland 镇 属于 Westchester 县 ， 并 且 包 含 了 Croton-on - Hudson 
村 ， 而 Cortland 市 属于 Cortand 县 ， 位 于 州 的 另 一 部 分 。) 这 个 图 是 用 Quadstone 公司 的 软 
件 生成 的 ， 从 图 中 很 容易 看 出 ， 在 纽约 附近 的 城市 化 县 中 用 木材 取暖 的 家 庭 并 不 多 ， 但 是 北 
部 的 乡下 地 区 却 非常 普遍 。 


图 3-6 纽约 州 以 木材 为 主要 加 热 原 料 在 各 县 的 盛行 情况 
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2. 比较 变量 值 及 其 描述 

考察 每 个 变量 的 取 值 ， 并 将 其 与 在 可 用 文档 中 提供 的 关于 该 变量 的 描述 进行 比较 ， 这 样 
的 比较 经 常 可 以 发 现 描述 是 不 准确 的 和 不 完整 的 。 在 一 个 杂货 购买 数据 集中 ， 被 标记 为 项 目 
计数 的 变量 取 了 很 多 非 整 数值 。 进 一 步 的 研究 发 现 ， 本 应 按照 销售 物 唱 进行 计件 的 一 个 条 
目 ， 却 是 按照 销售 物品 的 重量 来 记录 的 。 在 由 零售 公司 提供 的 另 一 个 数据 库 中 ， 有 一 个 字段 
被 撒 述 为 几 个 季度 的 总 开销 ， 不 可 思议 的 是 ， 这 个 字段 被 用 于 预测 目标 变量 ， 而 不 管 客户 是 
否 从 特定 目录 邮件 下 了 订单 。 凡 是 没有 下 订单 的 客户 在 这 个 字段 的 取 值 为 0， 凡 是 下 了 订单 
的 则 会 有 一 个 大 于 0 的 取 值 。 我 们 推测 ， 这 个 字段 事实 上 可 能 包含 了 从 所 关注 邮件 中 得 到 的 
客户 订单 的 值 。 无 论 如 何 ， 其 中 肯定 不 会 包含 已 经 记录 的 值 。 

3. 验证 假设 

利用 简单 的 交叉 表 和 可 视 化 工具 如 散 点 图 、 条 形 图 和 示意 图 ， 可 以 验证 关于 数据 的 假设 。 
与 其 他 不 同 变量 关联 起 来 考察 目标 变量 ， 可 以 理解 诸如 不 同 响应 的 渠道 、 不 同市 场 的 流失 率 或 
者 收入 按 性 别 的 差异 等 细节 。 如 果 可 能 的 话 ， 尽 量 通 过 直接 从 基层 数据 重新 生成 的 方法 来 比较 
报告 的 概要 数字 是 否 准确 。 例 如 ， 如 果 报 表 生 成 的 市 场 流失 率 为 2% ， 那 么 可 以 通过 计算 一 个 
月 内 取消 业务 的 客户 数量 总 和 ， 看 是 否 占 总 数 的 2% 左 右 ， 以 此 来 验证 报告 的 正确 性 。 

提示 : 从 详尽 的 数据 中 设法 重新 计算 已 聚集 的 数值 ， 是 一 项 有 启发 性 的 训练 。 在 试 

图 解释 这 种 差异 的 过 程 中 ， 极 有 可 能 获取 报告 数据 背后 的 、 关 于 操作 过 程 和 商业 规 

则 的 知识 。 

4. 提问 问题 

记 下 所 有 的 与 已 有 知识 或 者 期 望 值 不 符 的 数据 。 对 数据 进行 探究 的 一 个 重要 内 容 就 是 要 
给 数据 提供 者 提 一 系列 的 问题 。 由 于 很 少 有 用 户 会 像 数 据 挖掘 者 那样 仔细 对 待 数据 ， 所 以 这 
些 问 题 需 要 进一步 研究 。 以 下 是 对 数据 的 初步 探索 中 可 能 经 常 出 现 的 问题 

。 为 什么 在 新 泽 西 州 或 马萨诸塞 州 没有 汽车 保险 销售 业务 ? 

。 为 什么 一 些 客 户 在 2 月 份 活 牙 31 天， 而 没有 人 在 1 月份 活 牙 28 天 以 上 呢 ? 

。 为 什么 有 那么 多 客户 出 生 在 1911 年 ? 他 们 的 年 龄 真 的 那么 大 吗 ? 

。 为 什么 没有 重复 购买 的 实例 ? 

。 合 同 开 始 日 期 晚 于 结束 日 期 意味 着 什么 ? 

*。 为 什么 销售 价格 字段 会 出 现 负 值 ? 

。 活 路 的 客户 怎么 可 能 在 “取消 理由 ”字段 有 非 空 值 ? 

这 些 都 是 我 们 在 查询 实际 数据 时 遇 到 的 真实 问题 。 这 些 问 题 的 答案 有 时 会 提供 一 些 我 们 
以 前 不 知道 的 客户 领域 的 知识 。 新 泽 西 州 和 马萨诸塞 州 禁止 汽车 保险 公司 在 设 定 比 率 时 有 太 
大 的 弹性 ， 所 以 主要 依靠 价格 竞争 的 公司 就 不 愿意 进入 那些 市 场 。 有 时 ， 我 们 可 以 从 这 些 问 
题 中 获知 关于 操作 系统 的 一 些 特性 ， 比 如 在 登录 数据 时 ， 如 果 对 客户 一 无 所 知 而 系统 却 要 求 
输入 出 生日 期 ， 很 多 人 就 会 按 下 键盘 上 的 “1” 键 ， 直 到 填 满 这 个 字段 为 止 (如 果 一 直 按 其 
他 键 ， 则 输入 的 日 期 无 效 ) ， 此 时 输入 的 出 生日 期 就 是 11X117Z11， 这 就 导致 很 多 人 的 出 生日 
期 都 是 1911 年 11 月 11 日 。 有 时 还 会 发 现 数据 的 一 些 严重 错误 ， 比 如 把 2 月 份 的 数据 误 认 
作 ! 月 份 的 数据 等 。 在 最 后 一 个 实例 中 ， 我 们 还 发 现在 提取 数据 的 过 程 中 存在 漏洞 。 


3.4.4 第 四 步 : 创建 模型 集 
模型 集 包含 了 在 建 模 过 程 中 用 到 的 所 有 数据 。 模 型 集中 有 些 数 据 用 于 发 现 模式 ， 有 些 数 
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据 用 于 验证 模型 是 否 稳定 ， 有 些 用 于 评价 模型 的 性 能 。 创 建 模型 集 需 要 从 多 个 数据 源 收集 数 
据 以 构成 客户 特征 标识 ， 并 为 分 析 准 备 数据 。 

1. 收集 客户 特征 标识 

模型 集 就 是 一 个 表格 或 者 多 个 表格 的 集合 ， 其 中 每 一 行 对 应 一 个 待 研究 的 条 目 ， 字 段 则 
是 与 对 建 模 有 用 的 条 目 相 关 的 所 有 内 容 。 在 用 这 些 数 据 描述 客户 的 时 候 ， 模 型 集中 的 行 通 常 
称 为 客户 特征 标识 〈customer signature)。 从 关系 数据 库 中 收集 的 客户 特征 标识 往往 需要 连 
接 多 个 数据 表 进 行 复杂 的 查询 ， 然 后 通过 其 他 的 数据 源 进行 扩充 。 

数据 收集 过 程 的 一 部 分 工作 是 从 正确 的 汇总 (summarization) 层次 上 得 到 所 有 的 数据 ， 
这 样 每 一 位 客户 对 应 一 个 值 ， 而 不 是 每 次 交易 或 者 每 个 邮政 编码 对 应 一 个 值 。 这 些 问题 将 在 
第 17 章 中 继续 讨论 。 

2. 创建 平衡 样本 

数据 挖掘 的 任务 经 常会 涉及 学 会 区 分 不 同 的 群体 ， 比 如 响应 者 和 非 响应 者 ， 好 的 和 差 
的 ， 或 者 不 同 客户 群 的 成 员 等 。 正 如 在 下 面 的 “不 能 轻易 抛弃 离 群 值 ”部 分 介绍 的 那样 : 在 
这 些 群 体 的 成 员 数 量 大 致 相同 时 ， 数 据 挖掘 算法 的 效果 最 佳 。 这 种 情况 是 不 大 可 能 自然 出 现 
的 ， 事 实 上 ， 成 员 不 足 的 那些 群体 往往 更 值得 关注 。 

在 开始 建 模 之 前 应 该 通过 下 面 两 种 方法 来 平衡 数据 集 : 1) 不 同 群 体 以 不 同 的 比例 取样 ; 
2) 添加 权重 因子 ， 使 得 最 大 的 群体 与 最 小 的 群体 成 员 的 权重 不 同 。 


不 能 轻易 抛弃 离 群 值 

在 标准 的 统计 分 析 中 ， 抛 弃 那 些 远离 正常 范围 的 离 群 值 是 通用 的 惯例 。 但 是 在 数据 挖 气 
中 ,这些 离 群 值 或 许 正 是 我 们 寻求 的 ， 它 们 或 许 是 在 业务 流程 中 出 现 的 某 种 失误 造成 的 假 
象 ， 也 许 是 某 种 难以 置信 的 利润 丰厚 的 市 场 机 会 。 在 这 种 情况 下 ， 我 们 不 能 轻易 地 抛弃 ， 而 
是 要 逐步 认识 并 理解 这 些 离 群 值 。 

问题 在 于 知识 发 现 算法 依赖 于 样本 学 习 。 如 果 没 有 足够 的 特定 类 或 者 行为 模式 的 样本 ， 
数据 挖掘 工具 将 难以 提供 能 够 预测 的 模型 。 这 种 情况 下 ， 或 许 能 够 通过 人 工 添 加 特例 训练 数 
据 的 方法 来 解决 。 


IOeeoeoeg@goee 


在 结果 稀有 的 情况 下 ， 有 两 种 创建 平衡 样本 (balanced sample) 的 方法 
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例如 ， 一 家 银行 想 对 可 能 参加 私人 银行 计划 的 客户 建立 一 个 模型 。 这 样 的 计划 只 是 为 了 
吸引 那些 最 最 富有 的 客户 ， 即 使 在 一 个 相当 大 的 银行 客户 样本 中 ， 这 样 的 客户 也 是 罕见 的 。 
为 了 建立 一 个 能 够 刻画 这 些 富有 客户 的 模型 ， 应 该 创建 一 个 训练 集 ， 使 其 包含 S0% 的 私人 
银行 客户 的 交易 历史 ， 尽 管 他 们 在 所 有 客户 中 占 的 比率 不 会 超过 1% 。 

另 一 个 可 能 的 办 法 是 ,选择 给 每 一 个 私人 银行 客户 赋予 权重 为 1 的 值 ， 而 其 他 客户 的 权 
重 值 为 0.01， 这 样 高 级 客户 的 总 权重 才 会 和 其 他 客户 的 权重 基本 相等 〈 我 们 一 般 给 的 最 大 
权重 就 是 1)。 

3. 包含 多 种 时 间 帧 

方法 论 的 基本 目标 就 是 创建 稳定 的 模型 。 这 起 码 意味 着 ， 模 型 应 该 能 够 在 任何 时 候 和 未 
来 都 运转 良好 。 当 模型 集中 的 数据 不 都 来 自 同一 年 的 某 个 时 间 时 ， 更 容易 出 现 这 种 情况 。 即 
使 一 个 模型 只 是 基于 3 个 月 的 历史 数据 ， 模 型 集中 不 同 的 行 也 可 能 使 用 不 同 的 3 个 月 时 段 。 
解决 问题 的 思路 应 该 是 从 过 去 的 数据 进行 概括 产生 模型 ， 而 不 仅仅 记录 过 去 某 一 特定 时 间 发 
生 的 事情 。 

基于 单一 时 间 段 建立 模型 ， 就 会 增加 以 偏 概 全 的 风险 。 作 者 曾 遇 到 一 个 有 趣 的 例子 ， 有 
人 仅 用 某 超市 一 周 的 销售 数据 建立 了 一 个 关联 规则 模型 。 关 联 规则 的 目的 是 ， 在 给 定 了 购物 
篮 中 的 某 些 商 品 后 ， 预 测 购物 篮 的 另外 一 些 商 品 。 在 这 个 例子 中 ， 所 有 的 关联 规则 预测 的 结 
果 都 是 鸡蛋 。 这 种 奇怪 的 结果 是 很 少见 的 ， 因 为 后 来 我 们 发 现 这 个 模型 集 是 基于 复活 节 前 一 
周 的 数据 建立 的 。 

4. 创建 预言 性 模型 集 

当 模 型 集 用 于 预测 时 ， 还 要 考虑 关于 时 间 概 念 的 另 一 个 问题 。 尽 管 模型 集 应 该 包含 多 种 
时 间 帧 ， 任 何 一 个 客户 特征 标识 都 可 能 包含 预言 性 变量 和 目标 变量 之 间 的 一 个 时 间 差 异 。 时 
间 总 是 被 分 为 3 个 阶段 : 过 去 、 现 在 和 将 来 。 在 进行 预测 时 ， 模 型 是 使 用 过 去 的 数据 预测 未 
来 情况 。 

正如 图 3-7 所 示 ， 这 3 个 阶段 都 应 该 在 模型 集中 表示 。 当 然 所 有 的 数据 都 来 自 过 去 ， 模 
型 集中 的 时 间 区 间 应 该 是 “遥远 的 过 去 “不 太 遥 远 的 过 去 ”和 “最 近 的 过 去 ”。 预 言 性 模 
型 就 是 发 现 “遥远 的 过 去 ”的 某 种 模式 ， 来 解释 “最 近 的 过 去 ”发 生 的 结果 。 当 模型 被 部 署 
以 后 ， 就 可 以 使 用 “最 近 的 过 去 ”的 一 些 数 据 预 测 未 来 状况 。 


模型 建立 时 间 


模型 评分 时 间 
图 3-7 过 去 的 数据 模拟 来 自 过 去 、 现 在 和 未 来 的 数据 


至 于 为 什么 有 些 比 较 新 即 “ 不 太 遥 远 的 过 去 ”的 数据 没有 在 某 个 客户 特征 标识 中 得 到 使 
用 ， 原 因 往 往 不 太 明 显 。 这 是 因为 对 于 目前 应 用 的 模型 ， 最 新 的 数据 还 没有 作为 输入 应 用 到 
模型 中 ， 图 3-8 清楚 地 表明 了 这 一 点 。 
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模型 创建 时 间 


模型 评分 时 间 


图 3-8 ”建立 模型 时 间 和 使 用 模型 时 间 的 比较 


假如 有 一 个 模型 ， 使 用 6 月 份 的 数据 〈 不 太 遥 远 的 过 去 ) 来 预测 7 月 份 〈 最 近 的 过 去 ) 的 
情况 ,那么 只 有 当 8 月 份 的 数据 可 用 的 时 候 ， 这 个 模型 才能 够 用 于 预测 9 月 份 的 情况 。 可 是 ， 
8 月 份 的 数据 什么 时 候 可 用 呢 ? 事实 上 ,在 8 月 份 可 用 是 不 可 能 的 ， 因 为 8 月 份 的 数据 正在 生 
成 。 数 据 总 会 有 ， 但 可 能 在 9 月 份 的 第 一 周 还 不 行 ， 因 为 数据 需要 收集 、 清 理 、 装 载 、 测 试 
等 。 在 许多 公司 中 ，8 月 份 的 数据 到 9 月 中 旬 甚 至 10 月 份 才 可 以 使 用 ， 但 此 时 已 经 不 再 有 人 关 
心 对 9 月份 的 预测 了 。 对 这 个 问题 的 解决 方法 ， 就 是 要 在 模型 集中 包含 一 个 月 的 延迟 时 间 。 

5. 划分 模型 集 

在 从 合适 的 时 间 段 获得 了 预 分 类 的 数据 以 后 ， 方 法 论 要 求 将 其 分 为 三 个 部 分 。 第 一 部 分 
是 训练 集 ， 用 于 创建 初始 的 模型 。 第 二 部 分 是 验证 集 ， 用 于 调整 初始 的 模型 ， 使 它 更 加 通 
用 ， 而 不 至 于 过 多 地 依赖 于 训练 集 。 第 三 部 分 是 测试 集 ， 用 于 测试 把 模型 用 于 未 经 训练 的 数 
据 时 可 能 的 有 效 性 。 分 成 这 样 的 三 个 部 分 是 必要 的 ， 因 为 一 旦 某 些 数据 在 上 述 过 程 的 某 一 步 
中 使 用 过 ， 其 信息 也 就 变 成 了 模型 的 一 部 分 ， 这 些 数 据 也 就 无 法 应 用 到 下 一 步 中 ， 因 而 也 就 
不 能 用 于 修正 或 者 评价 模型 。 

人 们 可 能 难以 理解 为 什么 测试 集 和 验证 集 一 旦 用 过 之 后 就 会 “变质 "。 打 个 比方 ， 如 果 你 在 
上 五 年 级 ， 课 堂上 正在 进行 一 个 拼写 测验 。 假 如 在 测验 要 结束 的 时 候 ， 老 师 让 你 标 出 试卷 上 拼 错 
的 单词 并 给 自己 打 一 个 成 绩 ， 你 肯定 给 自己 一 个 高 分 ， 但 是 你 的 拼写 能 力 却 没有 得 到 提高 。 如 果 
在 一 开始 ， 你 认为 tomato 的 最 后 一 个 字母 应 该 是 e。， 当 你 给 自己 评分 的 时 候 ， 就 没有 任何 东西 可 
以 改变 你 的 主意 ， 因 为 此 时 没有 任何 新 的 信息 进入 到 系统 中 来 ， 所 以 必须 有 一 个 验证 集 。 

现在 ， 假 设 在 测验 结束 的 时 候 ， 老 师 允 许 你 在 给 自己 评分 前 先 看 一 下 周围 同学 的 试卷 。 
如 果 他 们 都 认为 tomato 的 最 后 一 个 字母 不 是 e， 你 也 许 就 会 决定 标 出 自己 的 错误 了 。 如 果 老 
师 在 第 二 天 进行 相同 的 测验 ， 你 的 成 绩 就 会 更 好 。 但 是 会 好 到 什么 程度 呢 ? 如 果 使 用 近邻 同 
学 的 试卷 来 估计 自己 的 能 力 ， 那 也 许 是 在 糊弄 自己 。 如 果 同 学 们 一 致 认为 和 tomato 一 样 ， 
potatoes 也 不 需要 字母 e， 你 会 改变 自己 的 主意 而 同意 大 家 的 观点 ， 这 时 你 就 会 高 估 自 己 第 
二 次 测验 的 成 绩 了 。 这 就 是 为 什么 测试 集 应 该 和 验证 集 不 一 样 的 原因 。 

对 于 预言 性 模型 ， 测 试 集 应 该 来 自 于 和 训练 集 、 验 证 集 不 同 的 时 间 段 。 模 型 的 稳定 性 要 
通过 其 月 复 一 月 的 运行 情况 来 验证 。 不 同时 间 段 的 测试 集 ， 通 常 称 作 过 期 (out of time) 测 
试 集 ， 是 测试 模型 稳定 性 的 一 个 好 方法 ， 尽 管 这样 的 测试 集 并 不 总 是 可 用 的 。 


3.4.5 第 五 步 : 修复 数据 问题 
所 有 的 数据 都 是 “ 脏 ” 的 ， 所 有 的 数据 都 会 有 问题 。 数 据 是 否 有 问题 要 随 数据 挖掘 技 术 
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的 不 同 而 定 。 对 某 些 技术 而 言 ， 比 如 决策 树 、 缺 失 值 和 离 群 值 不 会 引起 太 多 问题 ; 对 于 另外 
一 些 技 术 ， 比 如 神经 网 络 ， 就 会 有 各 种 各 样 的 麻烦 了 。 正 因为 如 此 ， 一 部 分 数据 修复 问题 可 
以 在 相关 技术 的 各 章节 中 进行 讨论 ， 剩 下 的 那些 问题 可 以 在 第 17 章 的 “数据 的 黑暗 面 ” 一 
节 中 找到 相应 的 内 容 。 

接 下 来 的 几 小 节 要 讨论 的 是 在 数据 修复 中 的 一 些 共 性 问题 。 

1. 拥有 太 多 数值 的 分 类 变量 

诸如 邮政 编码 、 区 县 、 电 话 听 简 样式 和 职业 编码 等 变量 都 是 传递 有 用 信息 的 ， 但 那 不 是 大 多 
数 的 数据 挖掘 算 法 能 够 处 理 的 方式 。 主 要 问题 在 于 ， 尽 管 一 个 人 住 在 哪里 和 做 什么 工作 是 很 重要 
的 预测 因素 ， 但 传递 这 些 信息 的 变量 如 此 之 多 ， 而 对 于 大 多 数 的 取 值 ， 数 据 中 的 样本 又 是 如 此 之 
少 ， 所 以 像 邮 政 编码 、 职 业 这 样 的 变量 ， 连 同 它们 所 表达 的 有 价值 信息 一 起 被 抛弃 掉 了 。 

像 这 样 的 变量 有 两 种 处 理 方法 ， 一 是 组 合 ， 将 许多 具有 与 目标 变量 近乎 相同 的 关系 的 变 
量 可 以 组 合 在 一 起 ; 二 是 将 它们 替换 为 与 邮政 编码 、 电 话 听 简 样式 或 者 职业 相关 的 有 意义 属 
性 。 可 以 将 邮政 编码 蔡 换 为 以 下 属性 : 邮政 编码 代表 的 中 间 本 土 价格 、 人 口 密度 、 历 史 响 应 
率 ， 或 其 他 具有 预言 性 意义 的 属性 。 将 职业 替换 为 相应 职业 的 平均 工资 ， 等 等 。 

2. 具有 倾斜 分 布 和 离 群 值 的 数值 变量 

对 于 任何 使 用 算术 运算 〈 比 如， 数值 与 权重 的 乘积 和 数值 的 和 ) 的 数据 挖掘 技术 ， 倾 斜 
分 布 (skewed distribution) 和 离 群 值 (outlier) 都 会 引发 问题 。 在 许多 情况 下 ， 抛 弃 离 群 值 
记录 是 有 意义 的 。 而 在 另外 一 些 情 况 下 ， 最 好 把 数值 分 成 大 小 相等 的 范围 ， 比 如 十 分 位 数 。 
有 时 候 ， 转 换 这 类 变量 的 最 佳 方法 是 通过 对 取 值 求 对 数 等 方法 将 其 取 值 范围 进行 缩减 。 

3. 缺失 值 

有 些 数据 挖掘 算法 能 够 将 “缺失 ”看 做 一 个 值 并 将 其 融和 人 规则 中 。 不 幸 的 是 ， 另 外 的 一 
些 算法 不 能 够 处 理 缺 失 值 (missing value)。 没 有 任何 简单 直接 的 解决 方案 能 够 保留 变量 原 有 
的 真实 分 布 。 抛 弃 所 有 带 有 缺失 值 的 记录 会 引起 偏差 ， 因 为 这 些 记录 并 不 是 随机 分 布 的 。 将 
这 些 缺 失 值 替 换 为 某 些 可 能 的 值 ， 比 如 平均 值 或 者 最 常见 的 值 ， 会 增加 一 些 虚假 的 信息 。 而 
将 这 些 值 蔡 换 为 某 些 根本 就 不 可 能 的 取 值 就 更 糟糕 了 ， 因 为 数据 挖掘 算法 不 会 识别 年 龄 变量 
的 取 值 为 - 999 这 样 的 情况 ， 算 法 会 继续 进行 并 使 用 该 值 。 

当 缺 失 值 必 须 被 蔡 换 时 ， 最 好 的 方法 是 通过 创建 模型 转移 它们 ， 这 个 模型 把 该 缺失 值 作 
为 目标 变量 。 

4. 含义 随时 间 变 化 的 值 

当 数 据 来 源 于 过 去 的 不 同时 间 点 时 ， 同 一 字段 的 同一 取 值 所 表示 的 含义 随时 间 而 变化 的 
情况 是 很 常见 的 。 信 用 等 级 为 “A” 总 是 最 好 的 ， 但 是 对 应 于 层次 A 的 具体 的 信用 得 分 范围 
是 随时 间 不 断 变化 的 。 要 恰当 地 处 理 这 样 的 问题 ， 就 需要 一 个 设计 良好 的 数据 仓库 ， 在 数据 
仓库 中 记录 这 些 含义 变化 ， 并 定义 一 个 含义 不 随时 间 变 化 的 新 变量 。 

5. 不 一 致 数据 编码 

当 针 对 同一 主题 的 信息 来 源 于 多 个 数据 源 时 ， 相 同 的 数据 可 能 会 有 不 同 的 表示 方法 。 如 
果 不 能 很 好 地 把 握 这 些 不 同 的 表示 方法 ， 这 种 虚假 的 不 同 能 够 导致 错误 的 结论 。 在 一 个 针对 
电话 呼叫 详细 信息 进行 分 析 的 项 目 中 ， 每 一 个 要 研究 的 市 场 都 以 一 种 不 同 的 方式 表示 一 个 检 
查 自 己 语音 邮件 的 呼叫 。 在 第 一 个 城市 中 ， 从 与 语音 邮箱 相关 联 的 电话 呼叫 该 邮箱 ， 呼 叫 被 
记录 为 主 叫 电话 和 被 叫 电 话 相 同 ; 而 在 另外 一 个 城市 ， 相 同 的 情况 则 可 能 通过 把 特定 的 不 存 
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在 的 号 码 作为 被 叫 电话 来 完成 ; 在 第 三 个 城市 中 ， 则 记录 拨打 语音 邮件 的 实际 电话 号 码 。 了 
解 这 些 不 同城 市 间 语音 邮件 处 理 习惯 的 不 同 之 处 ， 就 要 求 我 们 以 通用 格式 来 体现 这 些 数 据 。 

相同 的 数据 集合 包含 对 一 些 州 的 多 种 缩写 形式 ， 在 某 些 情 况 下 ， 某 个 特定 的 城市 需要 同 
本 州 的 其 他 城市 分 开 计 算 。 如 果 这 样 的 问题 没有 得 到 解决 ， 我 们 就 会 发 现 自己 建立 的 打 往 加 
州 的 呼叫 模式 模型 不 包含 打 往 洛 杉 宙 的 数据 〈 洛 杉 础 是 美国 加 州 南 部 的 一 个 城市 )。 


3.4.6 第 六 步 : 变换 数据 ， 获 取信 息 


数据 组 合 起 来 后 ， 主 要 的 数据 问题 也 得 到 了 修复 ， 仍 然 需 要 准备 数据 以 便 分 析 ， 包 括 添 
加 一 些 字 段 以 表达 某 些 信息 ， 也 可 能 会 涉及 消除 离 群 值 、 数 值 变量 的 装 人 、 对 不同 类别 变量 
的 分 组 归 类 、 使 用 对 数 函 数 〈logarithms) 进行 变换 以 将 某 些 计数 转换 为 比例 ， 等 等 。 数 据 
准备 是 一 个 非常 重要 的 主题 ， 我 们 的 同事 Dorian Pyle 已 经 写 了 一 本 这 方面 的 书 Data preza- 
7atlioz Jor Data Mirzizg (Morgan Kaufmann，1999)， 这 几乎 是 每 个 数据 挖掘 者 案头 必 备 的 
书 。 上 述 问 题 将 在 本 书 的 第 17 章 进行 讨论 ， 这 里 给 出 一 些 这 类 转换 的 例子 。 

1. 捕捉 趋势 

大 多 数 公 司 的 数据 含有 时 间 序 列 ， 如 营业 额 信息 、 使 用 情况 、 合 同 之 类 的 每 月 快照 。 绝 
大 多 数 的 数据 挖掘 算法 对 时 间 序 列 数据 不 进行 处 理 。 相 互 独立 的 对 单个 月 份 的 数据 调查 不 能 
发 现 诸如 “三 个 月 收入 下 滑 ”这 样 的 信号 。 数 据 挖掘 者 能 够 通过 添加 一 些 衍 生变 量 来 获取 趋 
势 信息 ， 例 如 通过 最 近 一 个 月 的 支出 与 前 一 个 月 支出 的 比率 〈ratio) 可 以 获取 和 揭 期 趋势 ， 最 
近 一 个 月 的 支出 与 去 年 同期 的 比率 则 可 以 获得 一 个 长 期 趋势 (long-term trend)。 

2. 创建 比率 及 变量 的 其 他 组 合 

趋势 分 析 仅 仅 是 通过 合并 多 个 变量 来 获取 信息 的 一 个 例子 ， 还 有 很 多 其 他 例子 。 这 些 附 
加 字段 通常 可 以 通过 已 有 的 字段 导出 ， 有 经 验 的 分 析 师 对 导出 方法 应 该 是 很 清楚 的 ， 但 是 仅 
仅 通 过 软件 却 不 容易 考虑 周全 。 典 型 的 例子 包括 ; 

obesity _ index = height2?/weight 

PE = price/earnings 

pop _density = popuiationVyarea 


ITpm = Tevenue ” passengerSs # miles 

把 该 领域 专家 认为 重要 的 能 够 表达 关系 的 字段 添加 进来 ， 能 够 使 得 专家 意见 在 挖 据 过 程 
中 起 到 一 定 的 作用 。 

3. 将 计数 转化 为 比率 

许多 数据 集 都 包含 计数 〈count) 或 者 金额 ， 这 些 计 数 和 金额 本 身 并 无 特殊 意义 ， 它 们 
也 会 随 其 他 的 值 而 变化 。 大 家 庭 会 比 那 些 相对 较 小 的 家 庭 在 食品 杂货 上 花费 更 多 ， 他 们 会 在 
农产品 、 肉 制品 、 乡 装 商品 、 清 洁 产品 和 其 他 任何 东西 上 花费 更 多 。 比 较 不 同 家 庭 在 任意 一 
个 类 别 的 消费 金额 ， 比 如 面包 店 ， 得 到 的 结果 都 是 大 的 家 庭 花 销 更 多 。 比 较 每 个 家 庭 在 每 个 
类 别 中 花 销 的 比率 应 该 是 更 有 意义 的 。 

通过 比较 基于 纽约 州 的 城镇 数据 集 的 两 副 图 ， 可 以 将 计数 转换 为 比率 的 值 看 得 很 清楚 。 图 
3-9 比较 了 通过 劣质 管道 与 流行 的 木材 取暖 的 房屋 的 数量 。 它 们 之 间 的 关系 可 见 ， 但 是 对 比 并 
不 明显 。 在 图 3-10 中 ， 劣 质 管道 的 房屋 数量 转化 成 劣质 管道 的 房屋 比率 ， 关 系 就 非常 明显 了 。 
那些 有 很 多 劣质 管道 房屋 的 城镇 也 有 许多 使 用 木材 取暖 的 房屋 。 这 是 否 意味 着 燃烧 木材 产生 的 
烟 破坏 了 管道 呢 ? 重要 的 是 要 记 住 ， 我 们 发 现 的 仅仅 是 模式 的 相关 性 ， 而 不 是 因果 问题 。 
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图 3-9 有 劣质 管道 的 家 庭 数目 与 用 木材 取暖 的 家 庭 数目 的 对 比 图 


Ra 


count() 


aa 


BadPimP 


图 3-10 ”有 劣质 管道 的 家 庭 比例 与 用 木材 取暖 的 家 庭 比例 的 对 比 图 
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3.4.7 第 七 步 : 建立 模型 


这 个 步骤 的 具体 细节 根据 使 用 技术 的 不 同 而 异 ， 在 关于 每 个 具体 挖掘 方法 的 章节 中 有 相 
应 的 描述 。 通 常 来 说 ， 创 建 模型 的 大 多 数 工 作 都 在 这 个 步骤 进行 。 在 定向 数据 挖掘 (direct- 
ed data mining) 中 ， 根 据 独立 的 或 者 输入 的 变量 ， 训 练 集 用 于 产生 对 独立 的 或 者 目标 的 变量 
的 解释 。 这 个 解释 可 能 采用 神经 网 络 、 决 策 树 、 链 接 图 或 者 其 他 表示 数据 库 中 的 目标 和 其 他 
字段 之 间 关 系 的 表示 方式 。 在 非 定向 数据 控 气 中 ， 就 没有 目标 变量 了 。 模 型 发 现 记 录 之 间 的 
关系 ， 并 使 用 关联 规则 或 者 聚 类 方式 将 这 些 关系 表达 出 来 。 

建立 模型 是 数据 挖 据 过 程 中 的 一 个 步骤 ， 这 个 步骤 由 数据 挖掘 软件 自动 实现 。 正 因 如 
此 ， 这 一 步 在 数据 挖掘 工程 中 花费 的 时 间 相 对 较 少 。 


3.4.8 第 八 步 : 评估 模型 


这 一 步 将 决定 模型 是 否 起 作用 。 关 于 模型 的 评价 要 回答 以 下 问题 ; 

。 模 型 的 准确 程度 如 何 ? 

。 模 型 对 被 观测 数据 的 描述 精确 程度 如 何 ? 

。 在 模型 预测 中 ， 可 以 设置 多 大 的 置信 度 ? 

。 模 型 是 否 易于 理解 ? 

当然 ， 对 这 些 问 题 的 回答 随 所 建立 模型 的 类 型 而 不 同 。 此 处 的 模型 评估 是 指 对 模型 的 技 
本 优势 的 评估 ， 而 不 是 良性 循环 的 测试 阶段 。 

1. 评估 描述 性 模型 

规则 :“ 如 果 (state= MA )， 那 么 加 热 原 料 是 油 ”， 看 上 去 比 规则 :“ 如 果 (area=339 OR 
area=331 OR area=413 OR area= S08 OR area=617 OR area=774 OR area=781 OR area= 8S7 OR 
area= 978) ， 那 么 加 热 原 料 是 油 ” 的 描述 性 更 强 一 些 。 即 使 两 个 规则 是 等 价 的 ， 第 一 个 似乎 具 
有 更 强 的 表达 力 。 

表达 力 看 上 去 好 像 纯 粹 是 主观 的 ， 但 是 事实 上 ， 有 一 个 理论 方法 来 测量 一 一 即 最 小 描述 
长 度 (minimum description length，MDL) ， 一 个 模型 的 最 小 描述 长 么 是 规则 及 其 所 有 例外 
列表 的 编码 位 数 。 需 要 的 位 数 越 少 规则 就 越 好 。 有 些 数据 控 气 工具 使 用 MDL 来 决定 娜 些 规 
则 集 要 保留 ， 哪 些 规则 集 要 去 除 。 

2. 评估 定向 模型 

定向 模型 可 以 通过 使 用 先前 未 使 用 过 的 数据 来 评估 其 准确 性 。 不 同 的 数据 挖掘 任务 需要 
不 同 的 方法 来 评估 模型 的 整体 性 能 ， 需 要 不 同 的 方法 来 判断 模型 对 于 任意 的 特定 记录 产生 准 
确 结果 的 可 能 性 。 

任何 模型 的 评估 都 依赖 于 商业 环境 ， 对 同一 个 模型 ， 用 一 种 评估 方法 进行 评估 时 可 能 是 
很 好 的 ， 但 是 使 用 另外 一 种 评估 方法 可 能 就 很 糟糕 了 。 在 机 器 学 习 领 域 一 一 机 器 学 习 是 许多 
数据 挖 据 算 法 的 源泉 一 一 研究 人 员 有 一 个 目标 ， 那 就 是 产生 能 够 从 整体 上 理解 的 模型 。 易 于 
理解 的 模型 被 认为 具有 良好 的 “智力 ”。 在 获得 最 佳 智力 方面 ， 即 使 一 个 包含 许多 规则 的 模 
型 更 准确 ， 研 究 人 员 也 不 愿 接受 它 ， 而 是 更 愿意 接受 一 个 包含 较 少 简单 规则 的 模型 。 在 商业 
环境 中 ， 这 样 的 可 解释 性 〈explicability) ， 大 概 不 能 和 性 能 重要 性 等 同 起 来 ， 但 有 时 可 能 更 
重要 。 
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模型 评估 可 以 在 整个 模型 层次 或 者 在 单个 预测 层次 上 进行 。 在 整个 模型 层次 上 具有 相同 
准确 度 的 两 个 模型 ， 可 能 在 单一 预测 层次 会 具有 相当 不 同 的 水 平 。 以 决策 树 为 例 ， 它 会 有 一 
个 整体 的 分 类 差错 率 ， 同 时 对 于 其 每 个 分 支 和 枝叶 也 都 会 有 一 个 差错 率 。 

评估 分 类 器 (classifier) 和 预测 器 (predictor) 

对 于 分 类 和 预测 任务 ， 准 确 度 (accuracy) 是 根据 差错 率 来 测量 的 ， 差 错 率 是 指 被 误 分 
类 的 记录 的 百分比 。 在 对 新 的 记录 数据 进行 分 类 时 ， 基 于 预 分 类 测试 集 的 分 类 差错 率 可 以 用 
作对 期 望 差错 率 的 一 个 估计 。 当 然 ， 这 个 过 程 也 只 在 测试 集 能 够 代表 大 量 数据 的 普遍 特征 时 
才 是 有 效 的 。 

要 确定 模型 的 差错 率 ， 我 们 推荐 的 方法 是 使 用 测试 数据 集 来 测量 ， 这 个 测试 数据 集 应 该 
是 从 与 训练 集 和 验证 集 相同 的 大 量 样本 集合 中 抽取 ， 但 是 要 和 它们 分 离开 来 。 在 理想 的 情况 
下 ， 这 种 测试 集 的 数据 应 该 比 模型 集中 的 数据 更 新 ， 然 而 在 实际 工作 中 ， 这 通常 是 不 可 
能 的 。 

将 差错 率 作 为 评价 工具 的 问题 在 于 差错 的 程度 是 不 同 的 ， 有 些 差错 可 能 比 其 他 差错 严重 
得 多 。 医 学 界 有 一 个 熟悉 的 例子 可 以 说 明 这 个 问题 ， 对 严重 疾病 检查 中 ， 错 误 的 阴性 结果 能 
够 导致 病人 耽误 治疗 ， 最 终 可 能 危及 生命 ;而 一 个 错误 的 阳性 结果 充其量 也 不 过 是 让 病人 进 
行进 一 步 的 检查 (当然 有 可 能 花 销 较 大 ， 或 者 具有 侵害 性 )。 如 图 3-11 所 示 ， 可 以 使 用 含混 
和 矩阵 (confusion matrix) 或 者 正确 分 类 抵 阵 (correct classification matrix) 区 分 错误 肯定 和 错 
误 和 否定 。 有 些 数据 控 掘 工具 允许 将 每 一 种 类 型 的 误 分 类 与 差错 成 本 联系 起 来 ， 这 样 建立 的 模 
型 就 可 以 使 差错 成 本 最 小 化 ， 而 不 是 将 误 分 类 率 最 小 化 。 


行 频率 的 百分比 


图 3-11 含混 和 矩阵 交叉 表 预 测 的 结果 与 实际 结果 比较 
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评估 估计 器 (〈estimator) 

对 于 佑 计 任 务 ， 准 确 度 是 根据 预测 得 分 与 实际 测量 结果 的 差异 来 描述 的 。 任 意 一 个 估计 
的 准确 度 和 模型 整体 的 准确 度 都 是 令 人 感 兴趣 的 。 一 个 模型 可 能 对 于 某 些 输入 值 的 范围 非常 
准确 ， 而 对 于 另 一 些 可 能 就 非常 不 准确 。 图 3-12 是 一 个 线性 模型 ， 这 个 模型 基于 一 个 产品 
单价 来 估计 总 收益 。 这 个 简单 的 模型 在 一 个 价格 范围 内 运行 得 相当 好 ， 但 是 当 价格 达到 产品 
需求 弹性 〈 销 售 量 的 变化 率 与 价格 的 变化 率 的 比值 ) 大 于 1 的 水 平时 ， 其 表现 就 非常 糟糕 
了 。 弹 性 大 于 1 意味 着 价格 的 进一步 增长 将 会 导致 总 收益 的 下 降 ， 原 因 在 于 每 单位 增加 的 收 
益 被 销售 数量 的 下 降 抵 消 了 。 


总 收益 


单位 价格 
图 3-12 ”估计 器 的 准确 度 可 能 在 输入 数据 范围 内 显著 变化 


描述 估计 模型 准确 度 的 标准 方法 是 测量 估计 值 平均 偏离 了 多 远 。 然 而 ， 简单 地 从 每 个 点 
的 真实 值 减 去 估计 值 并 取 结 果 的 平均 值 是 毫 无 意义 的 。 表 3-1 可 以 说 明 其 原因 。 
表 3-1 误差 抵消 (countervailing error) 
真 实 值 估 计 值 误 状 


真实 值 与 估计 值 的 平均 误差 为 0， 正 的 差 值 和 负 的 差 值 正好 相互 抵消 。 解 决 这 个 问题 党 
用 的 办 法 是 计算 差 的 平方 和 而 不 应 该 是 差 的 和 。 差 的 平方 和 的 平均 值 称 为 方差 (variance) 。 
表 3-1 中 的 方差 是 10。 


(-5?+22+(-2)2+12+42)/5= (25+4+4+1+16)/5= 50/5=10 


方差 越 小 ， 佑 计 就 越 准 确 。 方 差 的 一 个 缺点 是 与 估计 本 身 的 单位 不 统一 。 用 美元 做 单位 
估计 价格 时 ， 估 计 偏离 值 用 美元 做 单位 比 用 美元 的 平方 做 单位 要 有 用 得 多 ， 所 以 ， 通 常 我 们 
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会 取 方 差 的 平方 根 作 为 度量 ， 并 称 之 为 标准 差 (standard deviation)。 表 3-1 中 的 标准 差 为 10 
的 平方 根 ， 即 3.16 左右 。 对 于 我 们 的 目的 来 说 ， 只 要 知道 标准 差 能 够 测量 估计 值 与 真实 值 
究竟 偏离 多 远 就 可 以 了 。 

3. 利用 提升 度 来 比较 模型 

无 论 是 使 用 神经 网 络 、 决 策 树 、 遗 传 算法 还 是 其 他 方法 ， 定 向 模型 都 是 为 完成 某 个 任务 
创建 的 。 为 什么 不 评价 一 下 它们 在 分 类 、 佑 计 与 预测 方面 的 能 力 呢 ? 比较 分 类 模型 性 能 的 最 
常用 方法 是 使 用 称 为 提升 度 〈lift) 的 比率 。 这 个 度量 也 能 够 用 于 比较 为 其 他 任务 设计 的 模 
型 。 提 升 度 实际 上 测量 的 是 ， 当 模型 用 于 从 总 体 中 选择 一 个 群 组 时 ， 这 个 指定 群 组 集中 度 的 
变化 量 。 


1itt= P(classt| sample)/P(classt|population) 


可 以 举 个 例子 来 说 明 这 个 问题 。 假 定 我 们 建立 了 一 个 模型 ， 用 于 预测 哪些 人 比较 容易 对 
直接 的 邮件 诱惑 做 出 响应 。 通 常 ， 我 们 使 用 预 分 类 训练 数据 集 建 立 模型 ， 如 果 需 要 的 话 ， 也 
会 使 用 预 分 类 验证 集 进行 验证 。 现 在 ， 我 们 可 以 使 用 测试 集 计 算 模型 的 提升 度 。 

分 类 器 对 测试 集中 的 记录 标记 “预测 响应 ”或 者 “预测 不 响应 ”。 当 然 ， 这 不 是 每 次 都 
会 给 出 正确 结果 ， 但 是 如 果 模 型 足够 好 的 话 ， 标 记 为 “预测 响应 ”的 记录 组 ， 实 际 响应 者 的 
比 人 锣 会 比 测试 集 整 体 实际 响应 者 的 比例 更 高 。 考 虑 这 样 一 个 结果 : 如 果 测 试 集 包 含 5% 的 实 
际 响 应 者 ， 而 样本 中 包含 30% 的 实际 响应 者 ， 模 型 给 出 的 提升 度 就 是 10 (50 除 以 5)。 

能 够 得 到 最 高 提升 度 的 模型 一 定 是 最 佳 模型 吗 ?” 有 半数 响应 者 的 列表 当然 会 比 另 一 个 只 
有 1[4 响应 者 的 更 好 ， 对 吗 ? 不 一 定 ， 如 果 第 一 个 列表 中 仅仅 只 有 10 个 人 的 话 ， 就 不 是 最 
好 的 ! 

关键 在 于 提升 度 是 样本 大 小 的 函数 。 如 果 分 类 器 只 选 出 了 10 个 可 能 的 响应 者 ， 这 时 正 
确 率 为 100% ， 提 升 度 会 达到 20 一 一 当 总 体 中 只 有 5% 的 响应 者 时 ， 这 是 可 能 的 最 高 值 。 把 
用 于 将 某 人 分 为 可 能 响应 者 的 置信 度 水 平 放宽 的 话 ， 邮 件 列 表 将 会 变 得 很 长 ， 提 升 度 就 会 
下 降 。 

在 使 用 数据 控 气 工具 时 ， 如 图 3-13 所 示 的 图 表 是 非常 常见 的 。 根 据 模 型 预测 的 响应 情 
况 ， 对 所 有 潜在 客户 排序 就 能 生成 这 些 图 表 。 当 邮件 列表 增加 的 时 候 ， 我 们 沿 着 这 个 列表 走 
得 越 来 越 远 。X 轴 表 示 的 是 人 群 总 体 中 收 到 邮件 者 的 百分比 ，Y 轴 表 示 的 是 我 们 能 联系 到 的 
所 有 响应 者 的 百分比 。 

如 果 没 有 使 用 模型 ， 给 人 群 总 体 中 10% 的 人 发 送 邮 件 可 能 会 接触 到 10% 的 响应 者 ， 发 
送 50% 则 会 接触 到 50% 的 响应 者 ， 给 每 个 人 发 送 的 话 会 接触 到 所 有 的 响应 者 。 这 种 群体 发 
送 邮 件 的 方法 可 以 用 图 中 向 上 倾斜 的 直线 表示 。 另 一 条 曲线 表示 的 是 ， 如 果 用 模型 选择 邮件 
的 接收 者 情况 会 如 何 。 通 过 使 用 模型 发 现 ， 只 要 给 占 总 人 口 10% 的 人 发 邮件 ， 就 会 得 到 
20% 的 邮件 响应 者 ， 所 以 只 要 对 总 人 口 的 一 半 人 发 邮件 加 以 诱惑 ， 就 可 以 接触 到 70% 以 上 
的 响应 者 。 

如 图 3-13 所 示 的 图 表 常 被 称 为 提升 度 图 (lift chart)， 尽 管 实际 上 画 出 的 是 累积 响应 
(cumulative response) 或 者 称 作 集中 度 (concentration)。 图 3-13 表示 的 是 对 应 于 图 3.14 中 
响应 图 的 实际 提升 度 图 。 这 个 图 清楚 地 表明 ， 随 着 目标 列表 规模 的 增加 ， 提 升 度 呈 下 降 
趋势 。 


免费 领取 更 多 资源 V: 3446034937 


56 第 3 章 


鸭 丰 林 呈 必 吕 入 比 
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图 3-13 ”目标 邮寄 与 大 众 邮 寄 的 累积 响应 的 比较 
提升 度 存 在 的 问题 
提升 度 解决 了 如 何 比较 不 同 模型 性 能 的 问题 ， 但 是 还 不 能 回答 最 重要 的 问题 : 一 个 模型 是 
否 值 得 花 时 间 、 精 力 和 人 金钱 来 创建 ? 给 提升 度 是 3 的 客户 群体 邮寄 会 是 有 利 可 图 的 活动 吗 ? 
为 了 将 花 销 与 收益 纳入 到 考虑 范围 ， 如 果 没 有 业务 的 更 多 背景 知识 ， 是 无 法 回答 这 些 问 
题 的 。 另 外 ， 当 两 个 模型 被 用 于 同样 的 或 者 相近 的 数据 时 ， 提 升 度 也 是 一 个 非常 便利 的 比较 
性 能 的 工具 。 要 注意 的 是 ， 当 测试 集 的 输出 结果 有 相同 密集 度 时 ， 两 个 模型 的 性 能 只 能 使 用 


提升 度 来 比较 。 
提升 度 人 


民 
人 NUHHH 
TINUHHT 


半生 


图 3-14 ”提升 度 图 ， ER 
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3.4.9 第 九 步 : 部 署 模型 


部 署 模型 (deploy model) 就 是 将 其 从 数据 控 掘 的 环境 转移 到 评分 环境 。 这 个 过 程 可 能 
很 简单 ， 也 可 能 很 难 。 在 最 坏 的 情况 下 (这 种 情况 我 们 不 止 在 一 个 公司 遇见 过 )， 模 型 是 用 
其 他 地 方 都 不 能 够 使 用 的 软件 在 特殊 环境 中 开发 出 来 的 。 为 了 调用 这 个 模型 ， 程 序 员 需 要 把 
模型 的 描述 打印 出 来 ， 然 后 用 另外 一 种 编程 语言 将 其 重新 编程 ， 以 便 在 评分 平台 上 运行 。 

更 常见 的 一 个 问题 是 模型 使 用 了 未 在 初始 数据 中 出 现 的 输入 变量 。 由 于 模型 的 输入 至 少 
源 于 字段 ， 而 这 些 字段 最 初 是 从 模 想 集中 提取 出 来 的 ， 所 以 这 应 该 不 是 什么 问题 。 不 幸 的 
是 ， 数 据 挖掘 者 对 数据 进行 变换 ， 但 并 不 总 是 能 够 保持 变换 后 的 记录 “和 王 净 ”和 可 重用 。 

部 署 数据 控 气 模型 的 挑战 在 于 ， 它 们 经 常 被 用 于 为 大 型 的 数据 集 评分 。 在 某 些 环境 下 ， 
每 天 都 要 为 上 百 万 个 客户 记录 中 的 每 一 条 记录 更 新 行为 得 分 。 评 分 值 仅 是 数据 库 表 中 的 一 个 
附加 字段 ， 表 示 的 经 常 是 一 种 可 能 性 或 者 是 倾向 性 ， 因 此 通常 取 介 于 0 到 1 之 间 的 数值 ， 当 
然 ， 也 并 非 一 定 如 此 。 评 分 值 也 可 能 是 育 类 模型 给 出 的 类 标记 (〈class label) ， 或 者 是 带 有 可 
能 性 〈probability) 的 类 标记 。 


3.4.10 第 十 步 : 评估 结果 


图 3-14 中 的 响应 图 比较 了 使 用 或 者 不 使 用 预言 性 模型 时 ， 在 给 定 邮 资 额 度 情 况 下 的 响 
应 者 数量 。 一 个 更 有 用 的 图 应 该 能 够 展示 在 市 场 营销 活动 中 ， 对 于 给 定 的 花 销 能 够 带 来 多 少 
利润 。 毕 竟 ， 如 果 开 发 这 个 模型 很 昂贵 的 话 ， 大 众 邮寄 比 目 标 邮 寄 的 单位 成 本 可 能 更 划算 。 

。 建 立 市 场 活动 和 支持 模式 的 固定 成 本 是 多 少 ? 

。 对 每 一 个 服务 接受 者 而 言 的 花费 是 多 少 ? 

。 对 每 一 个 执行 服务 的 响应 者 而 言 成 本 是 多 少 ? 

。 一 个 积极 响应 的 价值 是 多 少 ? 

将 这 些 数据 填 人 一 个 电子 数据 表 中 ， 使 其 能 够 以 美元 来 测试 模型 的 影响 。 累 积 响应 图 能 
够 变 成 累积 利润 图 ， 这 个 图 决定 了 分 类 邮件 列表 应 该 从 哪个 位 置 截断 。 例 如 ， 如 果 开 展 市 场 
营销 活动 的 固定 价格 很 高 ， 且 对 每 一 个 接受 者 的 优惠 服务 价格 也 相当 高 (如 无 线 电话 公司 通 
过 赠送 手机 或 者 抹 掉 更 新 费用 来 换取 客户 的 忠诚 )， 公 司 会 因为 追求 极 少数 潜在 客户 而 赔钱 ， 
因为 这 种 计划 的 响应 者 数量 不 够 多 ， 不 足以 弥补 实行 该 计划 所 需要 的 男 定 成 本 。 另 一 方面 ， 
如 果 要 对 太 多 人 提供 优惠 ， 又 要 花费 很 高 的 可 变 成 本 ， 也 会 损害 公司 利益 。 

当然 ， 利 润 模型 成 功 与 否 取决 于 输入 值 的 好 坏 。 即 使 在 固定 成 本 和 可 变 成 本 很 容易 计算 
的 情况 下 ， 每 个 响应 者 的 预言 性 价值 也 是 很 难 估 计 的 。 断 定 一 位 客户 的 价值 有 多 大 的 过 程 超 
出 了 本 书 的 范围 ， 但 是 一 个 良好 的 估计 有 助 于 测试 数据 挖掘 模型 的 真正 价值 。 

最 后 ， 最 重要 的 度量 是 投资 回报 率 。 在 测试 集 上 测量 提升 度 有 助 于 选择 正确 的 模型 。 基 
于 提升 度 的 收益 率 模 型 有 助 于 决定 如 何 使 用 模型 给 出 的 结果 ， 但 在 本 领域 内 进行 测量 也 是 非 
常 重 要 的 。 在 数据 库 市 场 应 用 中 ， 这 需要 取消 对 照 组 ， 根 据 不 同 的 模型 得 分 仔细 地 追踪 客户 
的 响应 状况 。 


3.9.11 第 十 一 步 : 重新 开始 
每 一 个 数据 挖掘 项 目 引 出 的 问题 都 比 它 回答 的 问题 要 多 。 这 是 一 件 好 事 ， 意 味 着 以 前 不 
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可 见 的 新 关系 ， 现 在 已 经 变 得 可 见 。 新 发 现 的 关系 提出 用 于 测试 的 新 假定 ， 数 据 挖掘 过 程 再 
一 次 从 头 开始 。 


3.5 小 结 


数据 挖掘 来 自 两 种 形式 。 定 向 数据 挖掘 就 是 通过 对 历史 数据 的 查找 ， 找 到 能 够 解释 特定 
输出 结果 的 模式 。 定 向 数据 挖掘 包括 分 类 、 估 计 、 预 测 和 建立 简 档 等 任务 。 非 定向 数据 挖掘 
通过 同样 的 记录 搜索 ， 发 现 令 人 感 兴趣 的 模式 ， 包 括 聚 类 、 发 现 关 联 规则 和 描述 等 任务 。 

数据 挖掘 缩短 了 商业 与 数据 的 距离 。 就 这 一 点 而 言 ， 假 设 测试 是 这 个 过 程 中 非常 重要 的 
部 分 。 然 而 ， 从 本 章 所 讲 的 主要 内 容 可 以 看 出 ， 对 于 那些 粗心 大 意 的 人 来 说 ， 数 据 挖掘 充满 
陷阱 ， 遵 循 基于 经 验 的 方法 论 则 能 够 帮助 避 开 这 些 陷 阱 。 

第 一 个 关键 问题 是 将 相关 的 商业 问题 转换 为 数据 挖掘 可 以 解决 的 六 个 任务 之 一 : 分 类 、 
估计 、 预 测 、 关 联 分 组 、 聚 类 和 建立 简 档 。 

第 二 个 问题 在 于 找到 可 以 转化 为 可 操作 信息 的 合适 数据 。 一 且 找 到 了 合适 的 数据 ， 就 要 
进行 彻底 的 研究 。 探 究 的 过 程 很 容易 揭示 数据 存在 的 问题 ， 同 时 也 有 助 于 数据 挖掘 者 对 数据 
的 直观 理解 。 下 一 步 就 是 创建 模型 集 ， 并 将 其 划分 为 训练 集 、 验 证 集 和 测试 集 。 

数据 转化 对 于 以 下 两 个 目的 是 必要 的 : 1) 修复 数据 存在 的 问题 ， 如 缺失 值 、 取 很 多 值 
的 分 类 变量 等 ;， 2) 通过 创建 表示 趋势 和 其 他 比率 与 组 合 的 变量 ， 将 信息 显示 出 来 。 

一 旦 数据 准备 好 了 ， 创 建 模型 就 是 相对 容易 的 过 程 。 每 一 种 类 型 的 模型 ， 都 有 各 自用 于 
评 佑 的 度量 。 但 是 也 存在 独立 于 模型 类 型 的 评估 工具 ， 其 中 最 重要 的 两 个 工具 是 : 1) 提升 
度 图 ， 能 够 显示 被 评估 模型 如 何 提高 目标 变量 期 望 值 的 集中 度 ; 2) 含混 矩阵 ， 显 示 每 一 个 
目标 类 的 误 分 类 差错 率 。 在 下 一 章 中 ， 将 利用 几 个 来 自 实际 数据 挖掘 项 目的 案例 展示 实际 操 
作 的 方法 论 。 


免费 领取 更 多 资源 V: 3446034937 


第 4 章 数据 挖掘 企 市 场 营销 和 客户 
关系 管理 中 的 应 用 


一 部 分 人 从 技术 前 景 方面 发 现 数据 挖掘 技术 是 令 人 感 兴趣 的 ， 然 而 大 多 数 人 最 终 是 把 这 
项 技术 作为 一 种 手段 而 对 它 感 兴趣 。 这 种 技术 不 是 存在 于 真空 中 ， 而 是 存在 于 整个 业务 活动 
的 过 程 中 。 本 章 要 讲述 的 内 容 就 是 与 业务 活动 过 程 相关 的 。 

本 章 内 容 围绕 能 够 在 数据 挖掘 中 用 到 的 一 套 业 务 目标 。 每 一 个 选 定 的 业务 目标 都 与 可 以 
解决 选 定 问题 的 特定 数据 挖掘 技术 相 联系 。 本 章 中 所 选择 的 业务 主题 大 致 按照 客户 关系 的 复 
杂 性 由 浅 和 人 深 加 以 表述 ， 从 与 知之 甚 少 的 潜在 客户 的 沟通 问题 ， 逐 渐 转 到 可 能 涉及 多 种 产品 、 
多 种 通信 次 道 和 其 他 日 益 个 性 化 互动 的 现 有 客户 关系 中 所 呈现 出 的 各 种 各 样 的 数据 挖掘 领域 。 

下 面 在 讨论 业务 应 用 过 程 的 同时 ， 会 适当 介绍 有 关 技 术 资 料 ， 但 数据 挖掘 技术 的 具体 细 
节 将 在 以 后 的 章节 中 介绍 。 


4.1 寻找 潜在 客户 


寻找 潜在 客户 〈prospecting) 这 个 英文 单词 似乎 是 一 个 开始 讨论 数据 挖掘 商业 应 用 的 好 
起 点 。 英 文中 “prospect” 作 为 动词 的 最 初 定义 来 自传 统 的 采矿 业 ， 意 思 是 探寻 矿物 或 石油 。 
作为 一 个 名 词 , “prospect” 可 解释 为 具有 可 能 性 的 、 能 引起 开采 油田 或 者 控 气 矿产 的 联想 的 
那些 事物 。 在 市 场 营 销 方 面 ，prospect 指 那些 通过 正确 方式 接近 有 可 能 成 为 客户 的 某 个 人 ， 
即 潜在 客户 。 不 论 作为 名 词 还 是 动词 ， 在 使 用 数据 挖掘 技术 以 确定 未 来 谁 将 会 成 为 有 价值 的 
客户 这 一 商业 目标 上 ， 它 所 代表 的 意义 是 相通 的 。 

对 于 大 多 数 交 易 ， 地 球 上 超过 六 十 亿 的 人 口中 只 有 相对 极 少 的 -一 部 分 会 是 实际 的 潜在 客 
户 ， 绝 大 多 数 人 因 地 理 、 年 龄 、 支 付 能 力 和 对 产品 或 服务 的 需求 等 各 种 原因 而 被 排除 在 外 。 
例如 ， 提 供 家 庭 抵押 贷款 的 银行 自然 会 严格 控制 投递 范围 ， 把 这 类 促销 邮件 寄 给 居住 在 这 家 
银行 授权 经 营区 域内 的 那些 住户 ; 卖 庭院 秋千 的 公司 ， 喜 欢 把 目录 寄 给 从 地 址 上 看 起 来 可 能 
有 庭院 、 有 小 孩 的 家 庭 ; 杂志 要 及 准 具有 相应 语言 阅读 能 力 并 且 对 登 广 告 感 兴趣 的 那些 读 
者 ， 诸 如 此 类 的 例子 还 有 很 多 。 

数据 控 据 能 在 探查 潜在 客户 方面 扮演 多 种 角色 (role) ， 其 中 最 重要 的 是 : 

。 识 别 好 的 潜在 客户 

。 为 接近 潜在 客户 选择 沟通 渠道 (communication channel) 

。 针 对 不 同 的 光 在 客户 群 ， 选 择 合适 的 信息 

尽管 所 有 这 些 都 很 重要 ， 但 第 一 项 一 一 识别 好 的 潜在 客户 一 一 应 该 是 数据 控 气 最 广泛 应 
用 的 一 个 方面 。 


4.1.1 识别 好 的 潜在 客户 


多 数 公司 对 “好 的 潜在 客户 ” (good prospect) 的 最 简单 定义 是 : 对 可 能 成 为 客户 至 少 
会 表现 出 一 点 兴趣 的 某 个 人 。 更 复杂 的 定义 就 需要 进一步 期 酌 。 确 实 ， 好 的 潜在 客户 不 仅 要 


免费 领取 更 多 资源 V: 3446034937 


60 锡 了 入 


对 成 为 客户 感 兴趣 ， 他 们 还 必须 能 买 得 起 商品 ， 成 为 客户 对 公司 是 有 利 可 图 的 ， 并 且 不 太 可 
能 欺骗 公司 而 且 会 及 时 支付 账单 。 而 且 ， 如 果 善 竺 他们， 他 们 将 成 为 忠实 的 客户 并 推荐 另外 
的 客户 。 不 论 潜在 客户 的 定义 多 简单 或 者 多 复杂 ， 首 要 的 任务 是 要 找 准 他 们 。 

不 管 信息 是 通过 广告 传送 还 是 通过 更 直接 的 渠道 ， 如 邮寄 、 电 话 或 者 电子 邮件 ， 目 标明 
确 〈targeting) 是 重要 的 。 即 便 是 广告 牌 上 的 信息 ， 在 一 定 程 度 上 也 是 有 针对 性 的 : 在 通 向 
机 场 的 公路 边 容 易 发 现 航空 公司 和 汽车 出 租 公 司 的 广告 牌 ， 因 为 使 用 这 些 服务 的 人 就 在 那些 
驾车 路 过 的 人 群 之 中 。 

要 把 数据 挖掘 用 于 这 一 问题 ， 首 先 要 定义 具有 什么 特征 的 人 是 好 的 潜在 客户 ， 然 后 找 出 
能 够 瞄准 具备 那些 特征 的 人 们 的 方法 。 对 于 许多 公司 来 说 ， 要 使 用 数据 挖掘 识别 好 的 潜在 客 
户 ， 第 一 步 是 建立 响应 模型 。 在 本 章 中 稍 后 是 关于 响应 模型 的 详细 讨论 ， 阐 述 利用 它们 的 各 
种 方法 ， 以 及 它们 能 做 什么 、 不 能 做 什么 等 。 


4.1.2 选择 沟通 渠道 


寻找 沟 在 客户 需要 沟通 。 一 般 来 说 ， 公 司 总 是 试图 以 几 种 方式 与 潜在 客户 沟通 。 一 种 方式 
是 借助 公共 关系 ， 即 是 指 鼓 励 媒 体 专题 报道 公司 事务 ， 以 及 以 口头 方式 传播 公司 积极 的 信息 。 
虽然 公共 关系 对 于 某 些 公司 (如 Starbucks 和 Topperware ) 很 有 效 ， 但 不 是 定向 的 市 场 营销 渠道 。 

我 们 更 感 兴趣 的 是 广告 和 定向 市 场 营销 。 广 告 可 以 做 在 任何 地 方 ， 从 火柴 盒 到 一 些 商业 
网 站 上 弹出 的 令 人 讨厌 的 窗口 ， 从 重大 体育 赛事 的 电视 直播 ， 再 到 电影 中 的 物品 布置 。 从 这 
个 方面 看 ， 广 告 针 对 的 是 具有 共同 特性 的 人 群 ， 然 而 广告 并 不 能 针对 某 个 个 体 给 出 个 性 化 信 
息 。 接 下 来 的 部 分 讨论 了 通过 匹配 地 理 区 域 档案 和 潜在 客户 档案 ， 以 选择 正确 的 广告 场所 。 

定向 市 场 营销 确实 允许 定制 个 性 化 信息 ， 通 常 的 方法 是 打 电 话 、 发 电子 邮件 、 寄 明信片 
或 邮寄 五 光 十 色 的 彩色 目录 。 本 章 的 稍 后 部 分 是 关于 差别 响应 分 析 的 ， 解 释 了 数据 挖掘 如 何 
帮助 决定 哪 一 种 沟通 渠道 对 哪 一 组 潜在 客户 是 有 效 的 。 


4.1.3 租 选 适当 的 信息 


即使 在 销售 相同 的 日 用 产品 或 服务 时 ， 对 不 同 的 人 也 要 适当 地 提供 不 同 信息 。 举 例 来 
说 ， 同 一 张 报 纸 ， 吸 引 某 些 读者 的 可 能 主要 是 运动 版 面 ， 而 对 其 他 人 则 可 能 主要 是 政治 和 艺 
术 版 面 。 当 产品 本 身 存 在 许多 不 同 唱 种 ， 或 者 有 多 种 产品 可 供销 售 时 ， 选 出 正确 的 信息 就 更 
重要 了 。 

即使 对 于 单一 产品 ， 正 确 的 信息 仍 是 重要 的 ， 一 个 经 典 的 例子 是 价格 和 便利 之 间 的 权 
衡 。 一 些 人 对 价格 很 敏感 ， 厌 意 到 大 商场 购物 ， 喜 欢 在 深夜 里 打 电 话 ， 总 是 愿意 转 乘 飞机 ， 
并 且 把 星期 六 晚上 安排 到 行程 中 去 ;而 另外 一 些 人 则 可 能 愿意 为 更 方便 的 服务 支付 额外 费 
用 。 价 格 信息 不 仅 可 能 无 法 刺激 追求 便利 的 人 ， 而 且 可 能 冒险 :; 当 客户 愿意 支付 更 多 钱 的 时 
候 ， 却 将 他 们 引 向 了 利润 更 少 的 产品 。 

本 章 描述 了 如 何 将 简单 的 、 单 一 促销 活动 响应 模型 组 合 起 来 ， 创 建 促 销 活 动 与 客户 相 匹 
配 的 最 佳 后 续 服 务 模型 。 协 作 过 滤 (collaborative filtering) 也 是 一 种 有 用 方法 ， 它 把 具有 相 
似 意向 的 客户 进行 分 组 ， 而 这 些 客户 组 对 相同 的 产品 服务 可 能 做 出 相似 响应 ， 协 作 过 滤 方 法 
将 在 第 8 章 讨 论 。 
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4.2 为 选择 正确 的 广告 场所 进行 数据 挖掘 


寻找 潜在 客户 的 一 种 方法 是 寻找 与 现 有 客户 类 似 的 人 。 举 例 来 说 ， 经 过 调查 ， 一 本 全 国 
性 的 出 版 物 认 定 它 的 读者 具有 下 列 特征 : 

。59% 的 读者 受过 高 等 教育 ; 

。46% 属于 专业 技术 或 行政 职位 ; 

。21% 的 家 庭 年 收入 超过 75 000 美元 ; 

。7% 的 家 庭 年 收入 超过 100 000 美元 。 

理解 这 一 系列 用 户 特 征 数 据 (以 下 简称 为 “ 简 档 ”) ， 在 以 下 两 个 方面 有 助 于 该 出 版 物 的 
发 行 : 首先 ， 通 过 瞄准 与 该 描述 相 匹配 的 潜在 客户 ， 可 以 增加 自己 营销 工作 的 响应 比率 。 其 
次 ， 有 了 这 些 受 过 良好 教育 的 、 高 收入 的 读者 群 ， 可 以 把 出 版 物 上 的 广告 空间 出 售 给 那些 希 
望 其 产品 信息 能 够 到 达 这 些 受 众 群 体 的 公司 。 因 为 本 部 分 的 主题 是 以 潜在 客户 为 目标 ， 让 我 
们 看 看 该 出 版 物 是 如 何 利 用 这 些 简 档 来 强化 其 客户 发 气 工 作 的 。 基 本 思路 很 简单 ， 当 出 版 物 
想 要 通过 无 线 广播 做 广告 的 时 候 ， 应 该 寻找 其 听众 与 这 些 简 档 相 匹配 的 广播 电台 。 当 它 要 在 
商店 柜台 上 放 随 手 可 取 的 广告 卡片 时 ， 应 该 把 它们 放 在 与 这 一 简 档 相 匹配 客户 的 居住 地 附近 
的 商店 柜台 上 。 如 果 想 打 电 话 推销 ， 应 该 把 电话 打 给 那些 与 这 一 简 档 相 匹配 的 人 。 因 而 数据 
挖掘 面临 的 首要 问题 就 是 给 “ 简 档 匹配 ”下 一 个 好 的 定义 。 


4.2.1 谁 匹配 简 档 


决定 一 位 客户 是 否 匹配 某 简 档 的 方法 ， 是 衡量 客户 和 简 档 之 间 的 相似 性 ， 我 们 称 之 为 距 
离 。 有 几 种 数据 挖掘 技术 使 用 测量 相似 性 距离 这 一 概念 。 在 第 8 章 将 要 讨论 的 基于 存储 的 推 
理 (memory-based reasoning) ， 就 是 一 种 把 具有 “ 相 邻 近 属 性 ”的 已 知 记录 归 类 的 分 类 技术 。 
自动 公 类 检测 〈 第 11 章 的 主要 内 容 ) 则 是 另 一 种 数据 挖掘 技术 ， 它 通过 计算 两 个 记录 之 间 
的 臣 离 ， 查 找 记录 之 间 彼 此 类 似 的 簇 。 

对 这 一 简 档 的 例子 ， 其 目的 很 简单 ， 只 是 定义 一 个 距 离 度量 ， 以 决定 潜在 客户 与 该 简 档 
相 匹配 的 程度 。 由 测量 结果 组 成 的 数据 只 是 在 某 个 特定 时 间 内 窗户 的 一 个 快照 。 对 于 这 一 数 
据 ， 哪 种 测算 方法 更 有 意义 ? 特别 是 ， 对 于 以 百分数 方式 (58% 受过 高 等 教育 ，7% 收入 年 
超过 100 000 美元 ) 描述 简 档 的 事实 如 何 处 理 ? 反之 ， 对 于 “受过 或 者 没有 受过 高 等 教育 ”、 
“年 收入 超过 或 者 不 超过 100 000 美元 ”的 个 体 ， 这 样 的 数据 又 该 如 何 处 理 ? 

下 面 通过 一 个 例子 来 说 明 这 个 问题 。 设 想 有 两 个 调查 参与 者 : Amy 受过 高 等 教育 ， 每 
年 赚 80 000 美元 ， 是 自由 职业 者 ; Bob 中 学 毕业 ， 每 年 赚 50 000 美元 。 哪 一 个 与 读者 简 档 
更 接近 ? 问题 的 答案 取决 于 采用 哪 种 方式 对 比 。 表 4-1 显示 了 仅仅 使 用 该 简 档 和 简单 差距 度 
量 产生 得 分 的 一 个 方法 。 

表 4-1 通过 与 每 个 人 口 统计 学 度量 比较 来 计算 个 体 的 匹配 度 得 分 


读者 是 和 否 AMY BOB AMY BOB 
比例 得 分 得 分 得 分 得 分 
受 高 等 教育 58% 0.58 0.42 是 否 0.58 0.42 
专业 或 行政 46% 0.46 0.54 是 否 0.46 0.54 


收入 >75 000 美元 21% 0.21 0.79 是 和 否 0.21 0.79 
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( 续 ) 
读者 是 否 AMY BOB AMY BOB 
比例 得 分 得 分 得 分 得 分 
收入 >100 000 美元 7% 0.07 0.93 否 否 0.93 0.93 
总 计 2.18 2.68 


这 个 表 按 照 匹 配 每 一 特征 的 受众 比例 计算 得 分 。 比 如 , “58% 的 读者 受过 高 等 教育 ”这 
一 项 ，Amy 因 具 备 这 一 特征 得 0.58 分 。Bob 没有 大 学 毕业 ， 得 0.42 分 ， 因 为 其 他 42% 的 
读者 假定 是 没有 大 学 毕业 。 对 于 每 一 特征 依 此 类 推 ， 最 后 把 得 分 加 起 来 : Amy 最 终 得 2.18 
分 ，Bob 得 到 了 更 高 的 2.68 分 。 他 的 高 分 表示 他 比 Amy 更 匹配 目前 读者 的 简 档 。 

这 个 计算 方法 的 问题 是 ， 虽 然 从 分 值 结 果 看 Bob 比 Amy 与 简 档 更 匹配 ， 但 Amy 似乎 更 
接近 于 出 版 物 目 标 受众 ， 即 受过 高 等 教育 、 有 高 收入 的 那些 个 体 。 很 明显 ， 通 过 把 读者 简 档 
与 将 美国 人 口 作为 整体 的 人 口 统计 学 数据 对 比 ， 从 而 锁定 目标 的 方法 是 成 功 的 。 这 就 提示 了 
一 个 人 是 否 适应 成 为 出 版 物 受 众 的 更 可 信 的 度量 方法 ， 即 不 仅仅 要 考虑 读者 特征 ， 还 要 重视 总 
体 人 群 特征 。 通 过 与 确定 出 版 物 受 众 相似 的 方法 ， 可 以 测量 潜在 客户 与 总 体 人 群 的 差异 程度 。 

与 总 人 口 相 比 ， 读 者 群 受过 更 好 的 教育 ， 更 专业 ， 收 入 也 更 高 。 在 表 4-2 中 ，“ 指 数 
(index)” 你 是 将 上 共有 特定 属性 读者 的 百分比 除 以 具有 该 属性 的 人 占 总 人 口 的 百分比 计算 得 
出 的 ， 因 为 读者 特征 百分比 对 具有 读者 特征 的 人 占 总 人 口 百分比 有 特别 贡献 。 现 在 我 们 看 
到 ， 在 “ 受 高 等 教育 ”这 一 项 ， 读 者 受 高 等 教育 的 比例 差不多 三 倍 于 整个 人 口 受 高 等 教育 的 
比例 。 类 似 地 ， 读 者 未 受 高 等 教育 的 比例 大 约 只 相当 于 总 人 口 比 例 的 一 半 。 通 过 用 指数 作为 
得 分 考察 每 一 特征 ，Amy 得 分 8.42 (2.86+2.40+2.21+0.95)， 而 Bob 得 分 3.02 (0.53 
+0.67+0.87+0.95)。 基 于 指数 的 得 分 与 出 版 物 目标 受 众 死 配 性 要 好 很 多 。 新 的 得 分 更 有 
意义 ， 因 为 考虑 到 了 目标 受众 区 别 于 美国 人 口 整体 的 一 些 额 外 信息 。 

表 4-2 ”考虑 在 人 口中 所 占 比 例 计算 得 分 


读者 是 指数 读者 和 否 指数 
比例 占 总 人 口 比例 占 总 人 口 
受 高 等 教育 58% 20.3% 2.86 42% 79.7% 0.53 
专业 或 行政 46% 19.2% 2.40 54% 80.8% 0.67 
收入 >75 000 美元 21% 9.5% 2.21 79% 90.5% 0.87 
收入 >100 000 美元 7% 2.4% 2.92 93% 97.6% 0.95 


提示 : 当 比 较 客 户 简 档 的 时 候 ， 记 住 把 总 人 口 简 档 考 虑 在 内 是 很 重要 的 。 正 是 由 于 

这 一 原因 ， 使 用 指数 得 分 往往 比 使 用 原始 分 值 更 好 。 

第 11 章 描述 了 基于 两 种 角度 之 差 的 相似 性 的 有 关 概 念 。 在 该 方法 中 ， 每 一 被 测 属性 被 
认为 是 一 个 独立 的 坐标 点 。 取 每 一 属性 的 平均 值 作为 原点 ， 当 前 读者 可 用 一 个 矢量 描述 ， 代 
表 了 他 〈 或 她 ) 不 同 于 整体 的 偏离 值 和 方向 。 代 表 潜 在 客户 的 数据 也 是 一 个 矢量 。 如 果 这 两 
个 矢量 之 间 的 夹 角 很 小 ， 则 潜在 客户 与 在 同一 方向 上 的 群体 有 所 不 同 。 


4.2.2 测量 读者 群 组 的 匹配 度 


基于 指数 得 分 (index-based score) 的 思想 可 以 扩展 到 更 大 的 群 组 。 因 为 公司 不 一 定 掌 
握 评价 每 一 位 客户 或 潜在 客户 所 需要 的 总 体 统计 特征 的 特定 数据 ， 所 以 这 一 点 很 重要 。 幸 运 
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的 是 ， 前 述 特征 都 是 可 以 通过 美国 人 口 普 查 来 获得 的 人 口 统计 学 数据 ， 并 且 可 以 按 如 人 口 普 
查 区 域 (census tract) 等 地 理 分 布 方法 度量 ( 见 “ 人 口 普查 区 域 数据 ”部 分 )。 

这 里 描述 的 过 程 ， 是 为 该 出 版 物 按照 其 匹配 度 来 给 每 一 人 口 普查 区 域 评 定 等 级 ， 意 图 是 
评估 每 一 人 口 普查 区 域 符合 该 出 版 物 读者 特征 的 比例 。 举 例 来 说 ， 如 果 一 个 人 口 普 查 区 域 成 
年 人 群 $S8% 受 过 高 等 教育 ， 那 么 其 中 的 每 一 个 人 在 这 一 特征 的 匹配 度 得 分 为 1; 如 果 100% 
都 受过 高 等 教育 ， 那 得 分 仍 是 1 一 一 完全 符合 我 们 能 做 到 的 最 好 程度 。 然 而 ， 如 果 只 有 
5.8% 受 过 高 等 教育 ， 那 么 这 项 特征 的 匹配 度 得 分 就 是 0.1。 最 后 总 的 匹配 度 得 分 是 每 一 特 
征 得 分 的 平均 值 。 

图 4-1 提供 了 曼哈顿 三 个 人 口 普查 区 域 的 实例 。 每 个 区 域 都 有 所 要 考虑 的 四 项 特征 的 不 
同 百 分 比 ， 这 些 数据 可 以 组 合 起 来 得 到 每 一 区 域 的 总 匹配 度 得 分 ， 这 一 得 分 代表 了 该 区 域 人 
口 匹配 该 简 档 的 比例 。 需 要 说 明 的 是 ， 区 域 中 的 每 个 个 体 得 分 相同 。 


区 域 189 有 标 
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专业 技术 或 行政 职业 478% 
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受 高 等 教育 4 卫 
专业 技术 或 行政 职业 36s% 
TH S7SK+ 了 4.856 
2 


HHIS100K 
广告 总 体 匹 配 度 
4-1 计算 曼哈顿 三 个 人 口 普 查 区 域 读者 匹配 度 的 例子 


人 口 普 查 区 域 数据 

美国 政府 依法 每 10 年 进行 一 次 人 口 普 查 ， 主 要 目的 是 分 派 每 个 州 在 众议院 的 席位 。 在 
满足 这 一 要 求 的 过 程 中 ， 人 口 普查 也 提供 了 关于 美国 大 众 的 很 多 资讯 。 

美国 人 口 普查 局 (U.S.Census Bureau，www.census.gov) 使 用 两 种 调查 表 调 查 美国 大 
众 ， 短 表 (short form) 和 长 表 (非特 别 目 的 调查 表 ， 如 军事 人 员 使 用 的 )。 大 多 数 的 人 拿 到 
短 表 ， 询 问 一 些 关于 性 别 、 年 龄 、 种 族 和 家 庭 成 员 等 基本 问题 。 大 约 2% 的 民众 得 到 的 是 长 
表 (long formn)， 间 及 关于 收入 、 职 业 、 通 吉 习 惯 、 消 费 方式 等 一 些 详 细 问 题 ， 对 这 些 调查 
表 的 响应 提供 了 人 口 统计 简 档 的 基础 。 

人 口 普查 局 努力 使 这 一 信息 在 每 十 年 进行 的 人 口 普 查 之 间 保 持 最 新 。 人 口 普 查 局 不 发 布 
被 普查 个 体 的 信息 ， 而 是 以 小 的 地 理 区 域 为 单元 聚合 这 些 信 息 。 最 常用 的 是 人 口 普 查 区 域 ， 
由 大 约 4000 人 组 成 。 尽 管 人 口 普查 区 域 大 小 各 异 ， 但 它们 比 其 他 地 理 单 元 ， 如 县 和 邮政 区 
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划 ， 在 人 口 规模 上 更 具有 一 致 性 。 

人 口 普 查 确 实 有 更 小 的 地 理 单 元 ， 如 街区 和 街区 组 合 。 然 而 ， 为 了 保护 居民 隐私 ， 一 些 
低 于 人 口 普查 区 域 层 次 的 数据 是 得 不 到 的 。 从 这 些 区 划 单 元 数据 可 以 聚合 得 出 县 、 州 、 都 市 
统计 区 域 (metropolitan statistical area，MSA) 以 及 立法 行政 区 等 信息 。 下 图 显示 了 位 于 曼 
哈 顿 中 心 的 一 些 人 口 普查 区 域 。 


庐 语 “ 物 以 类 聚 ， 人 以 群 分 ”可 以 作为 市 场 营 销 的 一 个 基本 出 发 点 。 那 就 是 ， 具 有 相似 
志趣 和 喜好 的 人 居住 在 相似 的 地 方 (不论 是 自愿 的 还 是 因为 历史 上 某 些 原因 造成 的 )。 按 照 
这 一 观点 ， 在 已 经 存在 客户 的 地 区 以 及 与 此 类 似 的 地 区 开拓 市 场 是 个 好 办 法 。 不 论 是 用 于 发 
现 客户 集中 在 哪里 ， 还 是 用 于 确定 相似 简 档 区 域 ， 人 口 普查 信息 都 有 利用 价值 。 


4.3 通过 数据 挖掘 改进 定向 市 场 营销 活动 


广告 能 把 信息 传达 至 对 其 一 无 所 知 的 潜在 客户 个 体 ， 定 向 市 场 营销 至 少 需要 一 丁点 额外 
信息 ， 如 姓名 、 通 信 地 址 、 电 话 号 码 或 电子 邮箱 等 。 信 息 越 多 ， 数 据 挖掘 发 挥 作用 的 机 会 越 
多 。 最 基本 的 ， 数 据 挖掘 可 以 通过 选择 联系 谁 以 改善 目标 定位 。 

实际 上 ， 起 始 层 次 的 目标 搜索 并 不 需要 数据 挖掘 ， 需 要 的 只 是 数据 。 在 美国 有 关 人 口 整 
体 的 相当 多 数据 是 可 以 得 到 的 。( 很 多 其 他 国家 可 能 稍微 少 一 点 )， 在 许多 国家 ， 有 一 些 公 司 
汇编 和 出 售 各 种 各 样 家 庭 层次 的 数据 ,包括 收入 、 和 孩子 个 数 、 教 育 水 平 ， 甚 至 业余 爱好 等 。 
这 些 数 据 有 一 些 是 从 公众 档案 中 收集 来 的 : 家 庭 采 购 、 婚 姻 、 生 育 、 死 亡 事件 都 是 可 以 从 县 
法 院 和 行政 登记 机 关 获 悉 的 公开 记录 ， 其 他 数据 可 以 从 产品 登记 表 中 收集 ， 有 一 些 是 使 用 模 
型 得 来 的 。 各 个 国家 用 于 市 场 目 的 的 数据 使 用 管理 条 例 不 尽 相 同 。 在 一 些 国 家 ， 数 据 可 以 按 
地 址 ， 但 不 能 按 姓名 出 售 ， 另 一 些 国家 ， 数 据 只 允许 用 于 某 些 特定 准许 的 目的 。 还 有 一 些 国 
家 ， 数 据 几 乎 可 以 没有 限制 地 使 用 ， 但 只 覆盖 了 数量 有 限 的 家 庭 。 在 美国 ， 一 些 医疗 记录 类 
数据 是 完全 禁止 使 用 的 ， 而 对 于 信用 历史 之 类 的 数据 只 能 用 于 特定 的 经 核准 的 目的 ， 其 余 大 
部 分 则 是 不 受 限 制 的 。 
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警告 ; 美国 不 论 在 可 用 家 庭 数据 的 商业 范围 还 是 用 途上 ， 其 相对 较 少 的 限制 都 是 与 

众 不 同 的 。 尽 管家 庭 数 据 在 许多 国家 是 可 用 的 ， 但 控制 其 用 途 的 条 例 则 各 不 相同 ， 

另外 还 可 能 有 特别 严格 的 条 例 控制 个 人 数据 的 境外 传输 。 在 打算 将 家 庭 数 据 用 于 市 

场 营销 前 ， 必 须 首先 考察 它们 在 市 场 推广 方面 是 否 可 用 ， 在 使 用 这 些 数 据 时 有 什么 

法 律 限 制 ， 等 等 。 

在 诸如 收入 、 是 否 有 汽车 或 者 是 否 有 孩子 等 情况 的 基础 上 ， 家 庭 层次 的 数据 (house- 
hold-level data) 可 以 初步 整理 ， 划 分 群体 后 直接 使 用 。 但 问题 是 ， 即 使 采取 了 显著 的 筛选 措 
施 ， 与 可 能 响应 的 潜在 客户 相 比 ， 剩 余 群 的 数目 仍然 很 大 。 这 样 ， 针 对 潜在 客户 的 数据 挖掘 
应 用 的 首要 问题 是 确定 目标 一 一 发 现 最 可 能 对 优惠 服务 做 出 实际 响应 的 潜在 客户 。 


4.3.1 响应 建 模 


通常 ， 定 向 市 场 营 销 活 动 的 响应 率 一 般 是 一 位 数 。 响 应 模型 通过 识别 潜在 客户 ， 即 谁 更 
可 能 对 直接 诱导 做 出 响应 ， 来 提高 响应 率 。 最 有 用 的 响应 模型 应 该 提供 对 可 能 响应 的 真实 估 
计 ， 但 这 不 是 必要 条 件 ， 任 何 可 以 把 洪 在 客户 按 响应 可 能 性 分 级 的 模型 都 可 以 满足 需要 。 给 
出 一 个 分 级 列表 后 ， 直 接 面 向 市 场 的 营销 人 员 可 以 给 列 在 表 顶 端的 人 们 发 邮件 或 打 电 话 ， 以 
增加 活动 可 触及 的 响应 者 的 百分比 。 

下 面 的 小 节 将 描述 可 以 利用 模型 得 分 促进 定向 市 场 营 销 的 几 种 方法 。 下 面 的 讨论 内 容 与 
用 以 生成 得 分 的 数据 控 握 技术 无 关 ， 然 而 需要 指出 的 是 ， 本 书 中 提 到 的 许多 数据 挖掘 技 术 能 
够 并 且 已 经 应 用 于 响应 建 模 (response modeling )。 

依据 定向 市 场 营 销 联合 会 (Direct Marketing Association， 一 个 行业 组 织 ) 的 统计 ， 
100 000 件 的 普通 邮寄 花费 大 约 100 000 美元 ， 尽 管 价格 可 能 因 邮 寄 过 程 的 复杂 性 而 有 所 不 
同 。 这 其 中 的 一 些 费 用 ， 像 开发 创新 性 内 容 、 准 备 美术 唱和 印刷 的 初始 要 求 ， 与 寄 件数 量 无 
关 ， 剩 余 的 费用 则 直接 随 邮 寄 数 量 不 同 而 改变 。 已 有 的 订单 响应 者 名 录 或 者 订阅 杂志 人 各 
录 ， 可 以 每 千 人 多 少 钱 的 价格 购 得 ， 相 关 邮 政 用 品 费 用 和 邮资 也 可 以 按 相似 基数 计算 。 邮 寄 
量 越 大 ， 国 定 成 本 比例 将 变 得 越 小 ， 在 总 成 本 计算 中 变 得 越 不 重要 。 所 以 为 简化 计算 ， 本 书 
中 的 例子 假定 利用 直接 邮寄 活动 送 达 一 个 人 要 花 1 美元。 尽管 简单 的 邮寄 成 本 少 些 ， 而 很 精 
美的 邮寄 成 本 会 多 些 ， 但 这 种 近似 估计 仍然 是 合理 的 。 


4.3.2 优化 固定 预算 的 响应 率 


使 用 模型 得 分 的 最 简单 方式 是 用 它们 来 列 出 等 级 。 一 旦 潜在 客户 被 指定 了 响应 倾向 
(propensity-to-respond) 得 分 ， 潜 在 客户 列表 就 可 以 进行 排序 ， 把 那些 最 可 能 响应 的 人 排 在 
列表 的 顶端 ， 最 不 可 能 响应 的 人 排 在 底部 。 许 多 建 模 技术 能 够 用 来 生成 响应 得 分 ， 包 括 回 归 
模型 、 决 策 树 和 神经 网 络 等 。 

在 没有 时 间或 足够 预算 来 送 达 所 有 光 在 客户 的 情况 下 ， 列 表 排 序 就 显示 了 它 的 意义 。 如 
果 一 些 人 必须 被 抛弃 ， 咯 去 那些 不 大 可 能 响应 的 人 就 是 有 意义 的 。 不 是 所 有 的 交易 都 有 必要 
略 去 一 些 淘 在 客户 。 市 话 公 司 可 能 认为 城 里 的 每 个 家 庭 都 是 潜在 客户 ， 并 且 它 有 了 能力 一 年 内 
给 每 个 家 庭 写 凡 次 信 或 打 电 话 。 因 而 当 市 场 计 划 要 求 对 每 一 个 潜在 客户 提供 相同 服务 的 时 
候 ， 没 有 多 大 必要 进行 响应 建 模 ! 然而 ， 对 于 为 客户 选择 出 适当 的 信息 ， 以 及 预计 潜在 客户 
在 多 大 程度 上 可 能 成 为 客户 这 样 一 些 问题 ， 数 据 控 气 仍然 是 非常 有 用 的 。 
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更 可 能 的 情形 是 ， 市 场 营销 预算 不 允许 被 每 一 个 潜在 客户 以 相同 水 平 占用 。 设 想 一 个 公司 
在 其 潜在 客户 列表 上 有 100 万 个 姓名 ， 要 花费 300 000 美元 搞 市 场 营销 活动 ， 每 联络 一 个 客户 
花费 1 美元 成 本 。 这 个 公司 ， 我 们 称 它 为 简单 假设 公司 〈the Simplifying Assumptions Corpora- 
tion，SAC) ， 可 以 用 一 个 响应 模型 评定 湾 在 客户 列表 得 分 ， 花 300 000 美元 给 列表 中 得 分 最 高 
的 300 000 名 江 在 客户 发 送 服务 信息 ， 能 使 得 响应 数量 最 大 。 这 一 行动 的 结果 如 图 4-2 所 示 。 

ROC 曲线 

模型 用 来 产生 得 分 。 当 分 界 得 分 〈cutoff score) 用 来 决定 在 营销 活动 中 应 该 包括 哪些 客 
户 的 时 候 ， 客 户 实际 上 被 分 为 两 类 一 一 有 可 能 响应 ， 和 不 可 能 响应 。 评 估 分 类 规则 的 方法 是 
察看 它 的 差错 率 。 在 一 个 二 元 分 类 任务 〈( 只 有 两 种 可 能 的 事件 ) 中 ， 总 误 分 类 率 (misclassi- 
fication rate) 有 两 个 分 量 错误 肯定 率 (false positive rate，FP) 和 错误 否定 率 (false neg- 
ative rate，FN) ， 变 更 分 界 得 分 会 改变 这 两 种 差错 类 型 的 比例 。 对 于 一 个 高 分 值 意味 着 高 响 
应 可 能 的 响应 模型 ， 选 择 一 个 高 分 作为 界限 意味 着 很 少 会 有 肯定 错误 〈 被 标记 为 响应 者 而 没 
有 响应 的 人 们 )， 但 会 有 更 多 的 否定 错误 〈 标 记 为 不 响应 但 做 出 响应 的 人 们 )。 

用 ROC 曲线 可 以 表示 实验 测试 时 分 界 得 分 变化 所 导致 的 错误 肯定 率 和 错误 否定 率 的 变 
化 关系 。 字 母 ROC 代表 接收 器 作业 特性 〈Receiver Operating Characteristics) ， 这 个 名 字 可 以 
追 潮 到 第 二 次 世界 大 战 ， 它 的 提出 最 初 是 用 于 评价 雷达 操作 员 正 确 识 别 雷达 显示 器 上 的 点 是 
敌 舰 还 是 无 嘎 航 行 物 的 能 力 。 今 天 ，ROC 曲线 更 多 是 被 医学 研究 者 用 来 评估 医学 检测 结果 。 
错误 肯定 率 作为 入 轴 ， 用 虐 减 去 错误 否定 率 作为 了 Y 轴 。 下 图 中 的 ROC 曲线 反映 了 下 面 表格 
给 出 的 一 个 错误 情况 测试 。 


ROC 图 


FEP 100 72 44 30 16 11 6 4 乞 1 0 


为 模型 得 分 选择 一 个 有 很 低 错 误 肯定 率 的 分 界 会 导致 高 的 错误 否定 率 ， 反 之 亦 然 。 一 个 
好 的 模型 〈 或 医学 检查 ) 应 该 有 一 些 得 分 能 够 分 辨 结果 ， 并 因此 减少 这 两 种 类 型 的 错误 。 在 
能 够 做 到 这 一 点 时 ，ROC 曲线 向 左上 角 凸 起 。ROC 曲线 下 方 的 区 域 是 该 模型 区 分 两 个 结果 
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的 能 力 的 度量 ， 这 一 度量 叫做 分 辨 力 〈discrimination)。 完 美的 测试 分 辩 力 是 1， 对 两 个 结果 
的 无 用 测试 的 分 辨 力 是 0.$， 因 为 对 角 线 下 的 区 域 代 表 没 有 合适 模型 的 区 域 。 
ROC 曲线 在 市 场 营销 方面 的 应 用 少 于 一 些 其 他 的 领域 。 一 个 原因 是 错误 肯定 率 很 高 ， 
而 错误 否定 率 很 低 ， 即 使 分 界 得 分 有 大 的 改变 ， 曲 线 的 形状 也 不 会 有 多 大 改变 。 
100956 


90?%e 


集中 度 (响应 者 百分比 ) 


0% 10% 20 306 40 50 60% 706 80% 90% 100% 
列举 穿 透 度 (潜在 客户 百分比 ) 


图 4-2 ”累积 增益 或 集中 度 图 表 显 示 了 使 用 模型 的 收益 


上 上 方 曲 线 给 出 了 全 中 度 〈 响 应 者 百分比 ) ， 即 越 来 越 多 的 潜在 客户 吸引 到 活动 中 后 占 所 
有 响应 者 的 百分比 。 直 的 对 角 线 是 用 于 对 照 ， 它 代表 了 未 使 用 模型 时 的 情况 ， 因 此 集中 度 并 
不 与 穿 透 度 成 正比 。 随 机 抽取 30% 的 洪 在 客户 邮寄 可 能 发 现 有 30% 的 响应 者 ; 利用 模型 提供 
的 结果 ， 向 列 在 前 面 的 30% 的 潜在 客户 邮寄 可 能 有 65% 的 响应 者 。 集 中 度 与 穿 透 度 的 比 就 是 
提升 度 ， 两 条 线 之 间 的 距离 是 收益 。 提 升 度 已 经 在 前 一 章 讨论 过 ， 收 益 见 “ROC 曲线 ”部 分 。 

这 里 绘 出 的 模型 在 30% 处 有 2.17 的 提升 度 ， 这 意味 着 ， 与 在 100 万 潜在 客户 中 随机 抽 
取 30% 进 行 邮寄 所 收 到 的 响应 相 比 较 ， 使 用 这 个 模型 后 ， 同 样 花费 300 000 美元 ，SAC 将 
获得 两 倍 的 响应 者 。 


4.3.3 优化 营销 活动 收益 


对 于 一 项 营销 活动 ， 能 使 响应 率 加 倍 无 疑 是 一 个 令 人 期 待 的 结果 。 但 它 实 际 价值 到 底 有 多 
大 ? 这 项 活动 真 的 有 利 可 图 吗 ? 尽管 提升 度 是 一 个 有 用 的 模型 比较 方法 ， 但 并 不 能 回答 上 述 这 些 
重要 的 实际 问题 。 要 确定 收益 ， 还 需要 更 多 的 信息 。 特 别 是 ， 计 算 收 益 〈profitability) 不 仅 需 
要 考虑 收入 信息 ， 也 需要 计 人 成 本 信息 。 下 面 让 我 们 对 SAC 例子 添加 一 些 更 详细 资料 。 

简单 假设 公司 (Simplifying Assumptions Corporation，SAC) 以 单一 价格 销售 一 种 产品 ， 
产品 价格 为 100 美元 ,生产 、 仓 储 、 分 发 产品 的 总 成 本 是 55 美元 ， 另 外 ， 前 面 已 经 提 到 ， 
要 接触 一 个 潜在 客户 需要 花费 1 美元 。 现 在 我 们 有 足够 的 信息 来 计算 一 个 响应 所 产生 的 价值 
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了 。 每 个 响应 的 总 值 是 100 美元 ， 响 应 的 净 收 益 要 扣除 与 该 响应 相关 的 成 本 (货物 成 本 
55 美元 ， 联 系 成 本 1 美元 ) ， 每 个 响应 完成 的 净 收 入 是 44 美元 。 这 一 信息 概括 在 表 4-3 中 。 


表 4-3 ”简单 假设 公司 的 损益 表 


邮寄 
是 省 


是 $44 $ -1 
否 $0 $0 


收 益 

如 图 4-2 绘 出 的 集中 度 图 表 (〈concentration chart) ， 通 常 按 提升 度 进 行 讨论 。 提 升 度 测 
量 集 中 度 与 穿 透 度 的 关系 ， 把 它 用 于 比较 两 个 模型 在 潜在 客户 列表 给 定 深 度 下 的 性 能 ， 当 然 
是 一 个 有 用 方法 。 然 而 ， 它 未 能 捕捉 图 中 从 直觉 上 看 起 来 很 重要 的 另 一 问题 ， 那 就 是 : 这 两 
条 线 分 开 有 多 远 ? 在 哪个 穿 透 度 处 它们 离 得 最 远 ? 

我 们 的 同事 ， 统 计 学 家 Wil Potts， 把 集中 度 与 穿 透 度 之 间 的 差 称 为 收益 。 按 他 的 术语 ， 
这 个 差 值 最 大 的 点 就 是 最 大 收益 点 。 注 意 最 大 收益 点 与 最 高 提升 度 的 点 并 不 对 应 。 最 高 提升 
度 总 是 在 集中 度 图 表 的 左边 ， 在 那个 区 域 ， 集 中 度 最 大 并 且 曲 线 斜率 最 大 。 

最 大 收益 点 的 位 置 更 值得 关注 。 为 了 解释 它 的 一 些 有 用 特性 ， 本 部 分 引用 了 本 书 正文 中 
没有 解 泽 的 一 些 资料 〈( 如 ROC 曲线 和 KS 测试 )。 每 一 项 目 符号 处 是 关于 集中 度 曲线 上 最 大 
收益 点 的 一 个 命题 ， 随 后 附 有 该 命题 的 非 正式 解释 。 

4 最 大 收益 与 在 每 类 的 概率 的 累积 分 布 函数 之 间 的 最 大 距离 成 比例 。 

意思 是 ,在 穿 透 度 上 切割 潜在 客户 列表 于 最 大 收益 处 的 模型 分 值 也 是 Kolmogorov- 
Smirnov (KS) 统计 取 最 大 值 之 处 。 很 多 统计 员 经 常 使 用 KS 测试 ， 特 别 是 在 金融 服务 行业 。 
它 是 为 测试 两 个 分 布 是 否 不 同 而 开发 出 来 的 。 在 最 大 收益 点 处 把 列表 分 开 ， 产 生 了 一 个 “好 
的 列表 ”和 一 个 “ 差 的 列表 "”， 从 而 把 “好 的 ”和 “ 差 的 ”响应 者 的 分 布 极 大 地 分 离 ， 也 与 
总 人 口 分 布 极 大 分 离 。 这 样 ,“ 好 的 列表 ”中 有 最 大 响应 者 比例 ， 而 “ 差 的 列表 ”中 响应 者 
比例 最 小 。 

4 集中 度 曲线 上 的 最 大 收益 点 对 应 于 ROC 曲线 与 无 模型 直线 最 大 垂直 距离 处 。 

ROC 曲线 类 似 于 常见 的 集中 度 或 丸 积 增益 图 ， 因 此 它们 之 间 的 这 种 关联 并 不 让 人 感到 
意外 。 如 “ROC 曲线 ”部 分 揭示 的 那样 ，ROC 曲线 显示 了 两 种 类 型 的 误 分 类 差错 之 间 的 折 
圳 。 在 累积 增益 图 上 的 最 大 收益 点 与 ROC 曲线 上 类 间距 最 大 的 点 相对 应 。 

4 最 大 收益 点 与 灵敏 度 和 特异 性 的 非 加 权 平 均值 最 大 化 的 决策 规则 一 致 

如 医学 界 所 用 的 那样 ， 灵 敏 度 是 在 检验 中 得 到 阳性 结果 的 人 们 中 真 阳性 的 比例 。 换 名 话 
说 ， 就 是 真 阳性 除 以 真 阳 性 与 假 阳性 之 和 。 灵 敏 度 表 示 “ 一 项 诊断 基于 该 检验 是 正确 的 ”的 
可 能 性 。 特 异性 是 在 检验 中 得 到 阴性 结果 的 人 们 中 真 阴性 的 比例 。 好 的 检验 应 该 既是 灵敏 的 
又 是 特异 的 。 最 大 收益 点 是 能 够 使 这 两 项 测量 值 的 平均 值 最 大 的 那个 临界 点 。 在 第 8 章 中 ， 
这 些 概念 改名 为 复 检 比 和 精度 ， 这 是 在 信息 检索 中 使 用 的 术语 。 复 检 比 计算 通过 Web 搜索 或 
其 他 文本 查询 返回 关于 正确 主题 的 文章 数目 ; 精度 计算 返回 的 文章 中 正确 主题 所 占 的 百分比 。 

4 假定 误 分 类 成 本 与 目标 类 的 普及 度 成 反比 ， 最 大 收益 点 就 与 把 预期 损失 减 到 最 小 的 决 

策 规则 相对 应 。 
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评价 分 类 规则 的 方法 之 一 是 对 每 一 类 型 的 误 分 类 指定 成 本 ， 并 与 基于 该 成 本 的 规则 相 比 
较 。 无 论 对 于 响应 者 、 缺 席 者 、 骗 子 ， 还 是 患 有 特殊 疾病 的 人 ， 笑 少 的 案例 通常 都 是 最 值得 
关注 的 ， 所 以 错过 他 们 中 的 一 个 会 比 误 分 类 一 个 普通 案例 成 本 更 昌 贵 。 按 照 这 一 假设 ， 最 大 
收益 法 会 选 出 好 的 分 类 规则 。 


这 个 表格 表明 : 如 果 一 个 洪 在 客户 被 联系 并 做 出 响应 ， 该 公司 赚 44 美元 ; 如 果 一 个 潜 
在 客户 被 联系 但 没有 做 出 响应 ， 则 公司 损失 1 美元 。 在 这 个 简单 的 例子 中 ， 选 择 “ 不 和 一 个 
湾 在 客户 联系 ” 既 没有 成 本 也 没有 收益 。 更 复杂 的 分 析 可 能 需要 考虑 这 样 一 些 事 实 ， 即 不 联 
系 一 个 可 能 做 出 响应 的 湾 在 客户 是 有 机 会 成 本 的 ， 甚 至 作为 联系 的 结果 ， 通 过 增强 商标 知名 
度 ， 一 个 未 响应 者 可 能 成 为 好 的 潜在 客户 ， 并 且 这 样 的 响应 者 可 能 会 比 单 次 购买 客户 具有 更 
高 的 客户 生存 价值 。 除 去 这 些 复杂 性 之 外 ， 这 个 简单 损益 表 可 以 将 活动 响应 转变 为 收益 图 
表 。 如 果 忽 略 活动 的 间接 国定 成 本 ， 那 么 即使 只 有 1 个 潜在 客户 响应 而 另外 44 个 不 响应 ， 
该 活动 收 支 就 平衡 。 如 果 响 应 率 超过 这 个 比率 ， 该 活动 就 有 利 可 图 。 

某 告 : 如 果 失 败 的 联系 成 本 设 得 过 低 ， 损 益 表 就 会 建议 与 每 个 人 联系 。 由 于 其 他 原 

因 这 可 能 并 不 是 个 好 主意 ， 它 可 能 导致 潜在 客户 被 不 适当 的 促销 措施 所 充斥 。 

模型 如 何 影响 收益 

如 图 4-2 所 示 的 模型 中 表明 的 提升 度 和 收益 状况 会 对 活动 的 收益 有 何 影 响 ? 答案 依赖 于 
活动 的 启动 成 本 、 人 群 中 响应 者 的 普及 底线 和 所 联系 人 和 群 的 穿 透 度 边 界 。 回 想 SAC 的 预算 
是 300 000 美元 ， 假 设 人 群 中 响应 者 的 普及 底线 是 1% 。 该 预算 足以 联系 300 000 个 潜在 窜 
户 ， 或 者 潜在 客户 群 中 的 30% 。 在 30% 的 深度 上 ， 该 模型 提供 了 大 约 为 2 的 提升 度 ， 因 此 ， 
与 没有 使 用 模型 时 所 能 拥有 的 响应 者 相 比 ，SAC 可 以 预期 两 倍 的 响应 者 。 在 这 种 情况 下 ， 
两 倍 的 意思 是 2% 而 不 是 1% ,产生 6000 (2% * 300 000) 个 响应 者 ， 他 们 每 人 的 净 收 益 值 
是 44 美元 。 在 这 种 假设 下 ，SAC 从 响应 者 那里 获得 总 收益 600 000 美元 ， 净 收益 264 000 美 
元 。 而 98% 的 潜在 客户 或 者 说 294 000 人 没有 响应 ， 他 们 每 人 花 了 1 美元 ， 因 此 SAC 在 这 
个 活动 中 损失 30 000 美元 。 

表 4-4 显示 了 用 来 产生 图 4-2 集中 度 图 表 的 数据 。 它 表明 该 活动 可 以 通过 花费 更 少 的 
钱 、 联 系 更 少 的 潜在 客户 而 得 到 更 好 的 响应 率 来 赚 取 利润 。 只 给 10 000 个 潜在 客户 发 邮件 ， 
即 潜在 客户 列表 的 前 10% ， 所 获 提 升 度 为 3。 它 将 1% 的 底线 响应 率 扭 转 到 3% 的 响应 率 。 
在 此 情形 中 ，3 000 人 响应 产生 132 000 美元 的 收入 ; 有 97 000 人 响应 失败 ， 他 们 每 人 花费 1 
美元 ， 最 终 总 利润 是 35 000 美元 。 更 值得 一 提 的 是 ，SAC 在 市 场 营 销 预算 中 剩余 的 200 000 
美元 可 以 用 于 进行 另 一 个 营销 活动 ， 或 者 改善 这 一 活动 中 的 促销 物品 ， 因 此 增加 的 响应 可 能 
会 更 多 。 


表 4-4 以 10% 计 的 提升 度 和 黑 积 增益 


穿 透 度 增益 累积 增益 提 升 度 
0% 0% 0% 0 

10% 30% 30% 3.000 
20% 20% 50% 2.500 


309% 1S% 65% 2.167 
40% 13% 78% 1.950 
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( 续 ) 
穿 透 度 增益 累积 增益 提 升 度 
S0%6 7 听 8S% 1.700 
60% S9% 90% 1.S00 
70% 49% 94% 1.343 
80% 4% 96% 1.224 
90% 2% 100% 1.111 
100% 8% 100% 1 .000 


小 型 的 、 目 标明 确 的 活动 比 大 型 的 、 昂 贵 的 活动 可 能 获 益 更 多 。 列 表 变 短 时 提升 度 会 增 
加 。 我 们 能 因此 而 得 出 “小 型 的 活动 总 会 更 好 ”这 样 的 结论 吗 ? 回答 是 否定 的 ， 因 为 当 响 应 
者 的 数量 减少 时 ， 绝 对 收入 也 随 之 减少 。 作 为 一 个 极端 的 例子 ， 假 定 在 底线 响应 率 为 1% 时 
该 模型 能 够 通过 发 现 一 个 100% 响应 率 的 组 从 而 产生 100 的 提升 度 。 这 听 起 来 好 极 了 ， 但 是 
如 果 这 个 组 只 有 10 个 人 ， 他 们 仍然 只 值 440 美元 。 而 且 现 实 的 例子 应 该 包括 预先 固定 成 本 。 
图 4-3 显示 出 进行 如 下 假设 时 会 发 生 什 么 : 该 活动 除 每 联系 一 个 人 花费 1 美元 外 ， 还 有 
20 000 美 元 固定 成 本 ， 每 一 响应 收益 44 美元 ， 底 线 响 应 率 为 1% 。 该 活动 只 有 在 10% 左 右 
小 范围 的 穿 透 度 情况 下 是 到 利 的 。 


以 十 分 位 数 计算 的 登 利 


0% 10%6 20% 30 从、 40% 50% 60%6 70% 80% 90% 100% 
国 100.000 村 二 


全 200.000 
33000007 和 
($400.000) 十 eeeeeeeeees 


($500.000) 十 一 


($600.000) 


图 4-3 活动 收益 随 穿 透 度 的 变化 关系 


使 用 该 模型 来 优化 活动 的 收益 似乎 比 只 是 用 它 挑选 谁 将 包含 在 预定 大 小 的 邮寄 或 电话 名 
单 中 更 具 吸 引力 ， 但 这 一 方法 并 不 是 没有 缺陷 的 。 首 先 ， 最 终结 果 依赖 于 活动 成 本 、 响 应 率 
和 每 个 响应 者 收益 ， 在 进行 该 活动 前 其 中 任何 一 项 都 是 未 知 数 。 虽 然 这 些 在 示例 中 是 已 知 
的 ， 但 在 现实 生活 中 ， 只 能 大 概 估计 。 其 中 任何 一 项 的 很 小 变化 将 导致 以 上 示例 中 的 活动 完 
全 无 利 可 图 ， 或 者 要 通过 范围 大 得 多 的 十 分 位 数 变化 才能 使 它 盈 利 。 

图 4-4 显示 了 假设 成 本 、 响 应 率 和 收益 偏离 20% 时 该 活动 将 会 是 什么 结果 。 在 最 坏 的 情 
形 下 ， 能 够 得 到 的 最 好 结果 是 损失 20 000 美元 ; 在 最 好 的 情形 下 ， 该 活动 在 40% 穿 透 度 处 
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取得 最 大 收益 161 696 美元 。 成 本 估计 趋 于 精确 是 由 于 事先 可 以 确定 邮资 率 、 印 刷 费 和 其 他 
要 素 ， 而 响应 率 和 收益 估计 通常 是 猜测 。 由 于 这 些 因素 ， 虽 然 收 益 优 化 活动 听 起 来 很 吸引 
人 ， 如 果 预 先 没有 进行 实际 试验 活动 ， 在 现实 中 未 必 能 实现 。 需 要 提前 做 的 活动 收益 建 模 主 
要 是 一 个 基于 多 种 假定 来 决定 可 能 收益 范围 的 假设 分 析 。 尽 管 预先 优化 营销 活动 不 是 特别 有 
用 ， 但 在 活动 实施 以 后 ， 用 它 去 测试 活动 结果 会 很 有 用 。 然 而 要 有 效 地 做 到 这 些 ， 活 动 需要 
包含 响应 得 分 覆盖 完整 范围 的 客户 ， 甚 至 是 响应 较 低 的 十 分 位 数 的 客户 。 


3400.000 


位 00.0005 下 有 


30 


50% 60% 70% 80 帝 ~、90% 100% 


($200.000) 十 一 


($400.000]) 下 ee 


($600.000] 于 eeeeeeeseeeeeeeeeeeeeeeeeeeeeeeeee 


(3$800.000) 下 一 


($1.000.000) 
图 4-4 响应 率 、 成 本 和 每 个 响应 者 收益 20% 的 变化 对 活动 收益 产生 巨大 影响 


警告 : 由 于 法 动 收益 依赖 于 如 此 多 的 只 能 事先 估计 的 因素 ， 惧 一 可 靠 的 途径 是 使 用 
现实 市 场 进 行 测试 。 


4.3.4 接触 那些 受 相关 信息 影响 最 大 的 人 们 


迄今 为 止 ， 更 微妙 的 简单 假定 之 一 是 : 具有 高 提升 度 的 模型 可 用 于 识别 那些 对 营销 活动 
做 出 响应 的 人 。 既 然 这 些 人 在 收 到 一 个 优惠 服务 后 就 着 手 进行 购买 的 比率 比 其 他 人 高 ， 该 假 
定 似乎 已 经 被 证 明 。 然 而 还 有 另外 一 种 可 能 :该 模型 只 能 简单 地 识别 谁 可 能 购买 该 产品 ， 无 
论 有 或 者 没有 该 优惠 。 

这 不 是 纯 理 论 方面 的 讨论 。 人 举例 来 说 ， 一 家 大 银行 进行 了 一 项 直接 邮寄 广告 活动 来 鼓励 
客户 开设 投资 账户 ， 他 们 的 分 析 部 门 开 发 了 一 个 邮寄 响应 模型 用 于 测试 该 活动 ， 他 们 使 用 了 
三 个 群 组 : 

。 对 照 群 组 : 随机 选择 的 接收 该 邮 寡 的 群 组 ; 

。 测 试 群 组 : 按照 模型 响应 得 分 选 出 的 应 该 发 送 邮寄 的 群 组 ; 

。 放 齐 群 组 : 按照 模型 得 分 选 出 的 不 宜 发 送 邮寄 的 群 组 。 

该 模型 给 出 的 结果 的 确 不 错 。 那 些 具 有 高 模型 得 分 的 客户 确实 比 对 照 群 组 和 低 分 客户 响 
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应 率 要 高 。 然 而 出 乎 意料 的 是 ， 放 弃 群 组 中 的 客户 响应 与 测试 群 组 中 的 客户 响应 率 相同 。 

究竟 什么 原因 造成 了 这 种 结果 ? 该 模型 工作 正常 ， 识 别 出 了 那些 对 这 样 的 账户 感 兴趣 的 
人 们 。 然 而 ， 由 于 银行 的 每 一 部 分 工作 都 聚焦 于 使 客户 开设 投资 账户 一 一 播 出 广告 、 在 分 支 
机 构 张 贴 海 报 、 在 网 上 发 消息 、 培 训 客户 服务 人 员 ， 所 以 直接 邮寄 被 淹没 在 来 自 所 有 其 他 通 
道 的 噪声 里 ， 结 果 证 明 它 是 多 余 的 。 

提示 : 不 论 是 一 个 模型 还 是 基于 该 模型 所 推出 的 活动 ， 要 验证 其 是 否 有 效 ， 都 需要 

同时 跟踪 考察 处 于 没有 包含 在 活动 目标 的 放弃 群 组 的 潜在 客户 和 选 定 为 该 活动 目标 

的 潜在 客户 二 者 的 响应 率 与 模型 得 分 的 关系 。 

市 场 营销 活动 的 目标 是 改变 客户 行为 。 从 这 个 意义 上 说 ， 对 一 个 无 论 如 何 都 要 购买 的 潜 
在 客户 施加 影响 ， 与 对 一 个 收 到 促销 信息 也 不 会 购买 的 潜在 客户 施加 影响 相 比 ， 两 者 并 没有 
太 大 差别 。 一 个 被 识别 为 可 能 响应 者 的 组 也 许 同 样 是 不 太 可 能 被 市 场 营销 信息 影响 的 群 组 。 
他 们 被 选 定 成 为 目标 群 组 ， 表 明 他 们 在 过 去 可 能 从 你 的 竞争 对 手 那 里 已 经 收 到 了 许多 类 似 的 
信息 。 他 们 或 许 已 经 拥有 了 该 产品 或 者 与 之 相近 的 替代 品 ， 或 者 会 坚定 地 拒绝 购买 它 。 对 于 
以 前 完全 没有 听 说 过 该 产品 的 人 们 ， 市 场 信息 影响 差别 也 许 会 更 大 ; 即使 没有 市 场 营销 投 
资 ， 拥 有 最 高 分 的 那 几 段 可 能 应 该 做 出 响应 。 由 此 可 以 推导 出 近乎 荒 廖 的 结论 : 在 市 场 营销 
投资 中 ， 响 应 模型 中 得 分 最 高 的 几 段 也 许 不 提供 最 大 的 回报 。 


4.3.5 差别 临 应 分 析 


要 走出 这 一 困境 ， 出 路 在 于 直接 对 活动 的 实际 目标 进行 建 模 ， 这 不 应 该 只 是 简单 地 辐射 
那些 马上 进行 购买 的 潜在 客户 ， 而 是 应 该 同时 辐射 那些 因为 被 联络 而 更 可 能 做 出 购买 决定 的 
沟 在 客户 ， 这 称 为 差别 响应 分 析 。 

差别 响应 分 析 一 般 从 设置 一 个 目标 群 组 和 一 个 对 照 群 组 开始 。 如 果 对 目标 群 组 采取 的 措 
施 具 有 预想 的 效果 ， 目 标 群 组 的 总 响应 将 比 对 照 群 组 高 。 差 别 响应 分 析 的 目的 是 找 出 目标 群 
组 和 对 照 群 组 之 间 响 应 差别 最 大 的 那些 群体 区 域 。Quadstone 市 场 草 销 分 析 软 件 有 一 个 模块 ， 
使 用 如 图 4-5 所 示 的 一 个 稍 加 改进 的 决策 树 来 执行 这 一 差别 响应 分 析 ， 他 们 称 之 为 “提升 分 
析 ”(uplift analysis) 。 

图 解 中 的 树 基 于 从 一 个 测试 邮寄 活动 中 得 到 的 响应 数据 ， 如 表 4-5 所 示 。 该 数据 按照 年 
龄 和 性 别 ， 列 出 了 收 到 邮寄 广告 的 目标 群 组 和 没有 收 到 邮寄 广告 的 对 照 群 组 对 一 项 广告 服务 
的 接受 率 。 

表 4-5 ”从 测试 邮寄 活动 中 得 到 的 响应 数据 


对 照 群 组 自 标 〈 邮 寄 ) 群 组 
青年 老年 青年 老年 
女士 0.8% 0.4% 4.1% (个 3.3) 4.6% (〈 人 4.2) 
男士 2.8% 3.3% 6.2% (人 f3.4) 5.2% (人 1.9) 


无 需 使 用 数据 挖掘 即 可 看 出 : 具有 最 高 响应 率 的 群 组 是 收 到 邮寄 的 年 轻 男士 们 ， 随 后 是 
收 到 邮寄 的 老年 男士 。 这 是 否 意味 着 这 项 服务 的 促销 活动 应 当主 要 针对 男士 呢 $ 如 果 把 目标 
定 为 “使 不 经 促销 就 不 会 购买 的 新 客户 的 数量 最 大 化 ”， 回 答 就 是 否定 的 。 参 与 该 活动 的 男 
士 响应 该 服务 的 数量 确实 比 女士 多 ， 但 是 更 可 能 的 情况 是 男士 无 论 如何 都 会 购买 该 服务 。 差 
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别 响 应 树 可 以 使 我 们 更 清楚 地 看 到 这 样 一 点 : 受 该 活动 影响 最 大 的 群 组 是 老年 女士 。 没 有 促 
销 时 该 群 组 基本 不 会 购买 该 服务 (0.4% ) ， 但 是 通过 促销 ， 在 购买 量 上 她 们 增长 了 十 倍 。 


| 。 群 组 间 的 响应 差别 | 


群 组 间 的 响应 差别 
图 4-5 ”Quadstone 的 差别 响应 树 可 以 使 目标 群 组 和 对 照 群 组 之 间 响 应 差别 最 大 化 


4.4 使 用 当前 客户 来 了 解 潜在 客户 


发 现 好 的 潜在 客户 的 一 个 好 办 法 是 察看 目前 最 佳 客户 来 自 哪 里 。 这 意味 着 要 有 一 些 方法 
来 决定 谁 是 目前 的 最 佳 客户 ， 它 也 意味 着 要 保存 这 个 当前 客户 是 如 何 得 到 的 以 及 得 到 时 他 们 
的 特征 的 相关 记录 。 

当然 ， 依 赖 于 当前 客户 来 了 解 到 哪里 寻找 潜在 客户 的 不 足 之 处 在 于 ， 当 前 客户 只 反映 了 
过 去 的 市 场 营销 决策 。 研 究 当 前 客户 ， 将 不 会 使 你 在 从 没 尝试 过 的 任何 其 他 地 方 寻找 新 的 潜 
在 客户 。 尽 管 如 此 ， 当 前 客户 的 特征 是 一 个 评估 已 存在 的 获取 渠道 的 好 途径 。 针 对 发 掘 潜在 
客户 这 一 目的 ， 知 道 当 前 客户 过 去 是 潜在 客户 时 的 特征 是 重要 的 。 最 好 做 到 以 下 几 点 : 

。 在 他 们 成 为 客户 前 就 开始 跟踪 客户 ; 

。 收 集 新 客户 被 获取 时 的 信息 ; 

。 为 获取 时 间 数 据 和 未 来 收益 结果 之 间 的 关系 建立 模型 。 

下 面 几 小 节 将 提供 关于 这 些 内 容 的 详尽 讲解 。 
4.4.1 在 他 们 成 为 客户 前 就 开始 跟踪 客户 

在 潜在 客户 成 为 客户 前 就 开始 记录 有 关 他 们 的 信息 是 个 好 主意 。 通过 网 络 站 点 能 够 实现 
这 一 点 : 每 当 第 一 次 看 到 一 个 访客 就 发 送 一 个 cookie 和 启动 一 个 匿名 简 档 以 记 住 访客 做 了 什 


么 ， 当 该 访客 回来 〈 使 用 同一 计算 机 上 的 同一 浏览 器 ) 的 时 候 ， 该 cookie 被 识别 ， 简 档 被 更 
新 。 当 该 访客 最 终 变 成 客户 或 者 是 成 为 注册 用 户 时 ， 将 导致 这 种 转变 的 那些 活动 加 入 该 客户 
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记录 。 

在 离线 状态 下 (offine world) 追踪 响应 和 响应 者 也 是 好 习惯 。 要 记录 信息 的 第 一 个 关 
键 部 分 就 是 该 潜在 客户 响应 这 一 事实 。 描 述 谁 做 出 了 响应 、 谁 没有 做 出 响应 的 数据 是 未 来 响 
应 模型 的 必要 基础 。 只 要 有 可 能 ， 响 应 数据 还 应 尽量 包含 刺激 该 响应 的 营销 活动 、 通 过 什么 
渠道 做 出 响应 以 及 响应 是 何 时 发 出 的 等 信息 

在 诸多 市 场 营 销 信 息 中 ， 决 定 究竟 哪 一 种 激发 了 该 响应 可 能 是 困难 的 ， 也 许 有 时 候 根 本 
就 不 可 能 。 为 了 使 工作 变 得 更 容易 ， 响 应 表格 和 目录 应 包括 识别 代码 ， 通 过 网 络 站 点 点 击 可 
以 获取 指向 的 链接 。 即 使 广告 活动 也 应 该 能 通过 所 使 用 的 不 同 电话 号 码 、 邮 政信 箱 或 网 站 地 
址 区 分 开 来 。 

根据 产品 或 服务 的 本 质 ， 响 应 者 可 能 还 需要 为 申请 表 或 者 登记 表 提供 附加 信息 。 如 果 该 
服务 涉及 信用 的 扩展 ， 可 能 要 求 提 供 信 用 局 信息 。 在 客户 关系 建立 之 初 收 集 的 信息 ， 既 可 能 
是 一 无 所 知 ， 也 可 能 是 签 人 寿 保 险 单 时 提供 的 完整 医学 体检 表 ， 这 些 初 始 信 息 各 不 相同 。 多 
数 公司 收 集 信息 的 详尽 程度 都 介 于 前 述 两 种 可 能 之 间 。 


4.4.2 从 新 客户 那里 收集 信息 


当 一 个 潜在 客户 变 为 客户 ， 就 有 一 个 搜集 更 多 信息 的 绝 好 机 会 。 在 潜在 客户 转变 为 客户 
之 前 ， 关 于 潜在 客户 的 信息 一 般 是 有 关 地 理学 和 人 口 统计 学 方面 的 。 购 买 来 的 邮寄 名 单 不 太 
可 能 提供 除了 名 字 、 联 系 信息 和 名 单 来 源 之 外 的 任何 信息 。 当 有 地 址 的 时 候 ， 就 有 可 能 通过 
他 们 邻居 的 特征 来 推测 关于 潜在 客户 的 其 他 事项 。 姓 名 和 地 址 合 在 一 起 可 以 用 于 从 市 场 营销 
数据 提供 者 那里 购买 关于 潜在 客户 的 家 庭 层次 的 信息 。 对 于 使 用 通常 的 如 “年 轻 母亲 ”或 
“城市 青少年 ”等 分 类 词 从 大 范围 上 锁定 目标 ， 这 类 数据 是 很 有 用 的 ， 但 要 形成 个 性 化 客户 
关系 的 基础 ， 这 种 信息 还 不 够 详细 。 

关于 最 初 购 买 日 期 、 最 初 获取 渠 道 、 所 响应 的 服务 、 最 初 的 产品 、 最 初 的 信用 分 值 、 响 
应 时 间 和 地 理 位 置 等 信息 收集 ， 是 将 来 数据 挖掘 会 用 到 的 最 有 用 的 内 容 。 我 们 发 现 ， 对 许多 
收益 结果 ， 如 预期 的 关系 持久 庆 、 呆 账 和 额外 购买 等 ， 这 些 内 容 具有 很 好 的 预言 性 。 这 些 初 
始 值 应 被 保存 为 原始 形式 ， 不 应 随 着 客户 关系 的 发 展 而 被 改写 为 新 值 。 


4.4.3 获取 时 间 变 量 可 预测 未 来 结果 


通过 记录 在 获取 客户 时 已 知 的 任何 事项 并 对 客户 长 期 跟踪 ， 利 用 数据 控 据 技术 ， 商 家 能 
够 把 获取 时 间 变 量 与 未 来 结果 (如 客户 持久 度 、 客 户 价值 、 隐 含 风 险 等 ) 联系 起 来 。 然 后 这 
些 信息 就 能 够 用 于 指导 市 场 营销 ， 把 营销 重点 转向 那些 使 该 产品 能 够 收 到 最 大 收益 的 渠道 和 
信息 。 例 如 ， 第 12 章 描述 的 生存 分 析 技术 能 够 用 于 确定 每 一 渠道 的 平均 客户 生存 期 ， 由 此 
通常 能 够 发 现 一 些 总 道 的 客户 持久 时 间 两 倍 于 其 他 恩 道 。 假 定 能 够 大 致 估计 一 位 客户 的 每 月 
价值 ， 这 将 转化 成 一 个 典型 的 渠道 A 客户 比 一 个 典型 的 渠道 B 客户 在 多 大 程度 上 更 有 价值 
的 实际 收益 图 一 一 一 个 与 每 个 响应 成 本 测算 方法 同样 有 用 的 、 经 常用 于 评估 渠道 状况 的 图 。 


4.5 客户 关系 管理 数据 挖掘 


客户 关系 管理 自然 地 把 重心 集中 在 已 建立 的 客户 。 已 建立 的 客户 是 需要 挖 据 的 数据 的 最 
丰富 的 来 源 。 最 有 意义 的 是 ， 已 建立 的 客户 产生 的 数据 反映 了 他 们 实际 的 个 性 化 行为 ; 客户 
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是 否 准 时 支付 账单 ? 用 支票 还 是 用 信用 卡 支 付 账单 ”最 后 一 次 购买 是 什么 时 候 ? 购买 的 是 什 
么 产品 ?花费 多 少 钱 ? 该 客户 给 客户 服务 中 心 打 过 多 少 电话 ? 我 们 给 该 客户 打 过 多 少 电 话 ? 
客户 最 常 使 用 什么 运送 方式 ? 该 客户 已 回头 购买 了 多 少 次 ? 这 种 客户 行为 数据 能 用 来 评估 客 
户 的 潜在 价值 ， 估 计 他 们 将 要 结束 该 关系 的 风险 ， 估 计 他 们 停止 支付 账单 的 风险 ， 以 及 用 于 
预测 他 们 的 未 来 需求 。 


4.5.1 按 客户 需求 策划 营销 活动 


用 于 优化 针对 洪 在 客户 的 邮寄 预算 的 同一 个 响应 模型 得 分 对 现 有 客户 用 处 更 多 ， 它 能 被 
用 于 合理 措 配 由 公司 主导 的 针对 现 有 客户 的 市 场 信息 。 在 获取 到 客户 以 后 ， 市 场 营 销 并 没有 
停止 ， 还 会 有 交叉 销售 (cross-sell) 活动 、 提 升 销售 (up-sell) 活动 、 使 用 激励 活动 (usage 
stimulation campaign) 、 忠 诚 度 计划 (loyalty program) 等 。 这 些 昔 销 活动 可 以 认为 是 为 留 住 
客户 而 设计 的 。 

若 把 每 个 营销 活动 孤立 起 来 考虑 ， 并 且 所 有 的 客户 在 每 一 个 活动 中 都 设 定 响 应 分 值 ， 典 
型 的 情况 是 : 对 于 其 中 的 许多 营销 活动 都 会 得 高 分 的 人 处 于 某 个 相似 的 客户 组 。 在 该 模型 得 
分 中 反映 出 的 事实 是 ， 一 些 客户 比 其 他 人 响应 更 积极 。 这 一 方式 会 导致 差 的 客户 关系 管理 ; 
高 分 值 组 被 信息 狂 销 浇 炸 变 得 恼火 而 且 反 应 迟钝 ， 而 与 此 同时 ， 其 他 客户 从 未 收 到 公司 的 来 
信 ， 因 而 未 受到 应 有 的 鼓励 去 扩展 这 种 关系 。 

一 种 替代 方案 是 给 每 一 位 客户 寄 送 有 限 数量 的 信息 ， 使 用 其 得 分 来 决定 对 每 个 人 而 言 哪 
些 信息 是 最 恰当 的 。 即 使 是 对 所 有 服务 得 分 较 低 的 客户 也 可 能 在 响应 某 些 服务 方面 得 分 比 他 
人 高 。 在 Mastering Daia Mizizg (Wiley，1999) 一 书 中 ， 我 们 描述 了 如 何 用 这 一 系统 使 一 
个 金融 网 站 更 加 个 性 化 : 即 基 于 每 一 位 客户 的 银行 行为 ， 对 其 最 可 能 感 兴趣 的 产品 和 服务 高 
亮 显示 。 


4.5.2 划分 客户 群体 


划分 客户 群体 是 对 已 建立 关系 的 客户 进行 数据 挖掘 的 常见 应 用 。 划 分 群体 的 目的 是 对 每 
一 特征 客户 群 调整 产 品 、 服 务 和 市 场 推广 信息 。 客 户 群 体 划分 传统 上 基于 市 场 调查 和 人 口 统 
计 信 息 ， 比 如 ， 可 能 会 有 “年 轻 单身 群体 ”或 “忠诚 客户 群体 ”之 分 。 基 于 市 场 调查 划分 群 
体 的 问题 是 ， 很 难 知道 如 何 将 这 些 特征 应 用 于 那些 没有 包括 在 调查 中 的 客户 。 基 于 人 口 统计 
学 划分 客户 群体 的 问题 是 ， 不 是 所 有 “年 轻 单 身 ” 或 “ 居 无 定 所 者 ”实际 上 都 具有 所 在 群体 
的 爱好 和 产品 倾向 性 。 数 据 挖 据 就 是 通过 识别 行为 群体 进行 的 。 

1. 发 现行 为 群体 

发 现行 为 群体 的 一 种 方法 是 使 用 第 11 章 描 述 的 非 定向 聚 类 技术 。 这 一 方法 可 以 产生 相 
似 客户 的 聚 类 ， 但 要 了 解 这 些 聚 类 与 该 商务 的 关系 可 能 是 困难 的 。 在 第 2 章 中 ， 有 一 个 发 现 
小 商业 用 户 群 体 的 例子 ， 某 个 银行 成 功 使 用 自动 聚 类 检测 来 识别 好 的 限额 家 庭 抵 押 贷 款 潜在 
客户 。 然 而 这 只 是 已 发 现 的 14 个 簇 中 的 一 个 ， 而 其 余 的 那些 并 没有 明显 的 市 场 营销 用 途 。 

更 典型 的 是 ， 商 家 喜欢 这 样 的 划分 群体 方式 ; 它 可 以 把 每 位 客户 归 到 一 个 容易 描述 的 群 
体 中 。 这 样 一 些 群 体 经 常 是 为 续 约 或 高 消费 水 平等 市 场 营销 目标 而 建立 。 对 于 这 种 划分 群体 
的 方式 ， 第 6 章 描述 的 决策 树 技术 是 很 理想 的 方法 。 

另 一 种 常见 的 情形 是 ， 当 预先 存在 基于 客户 行为 的 群体 定义 时 ， 数 据 挖 据 要 解决 的 是 在 
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数据 中 识别 与 群体 相符 的 客户 模式 。 一 个 好 的 范例 是 把 信用 卡 客户 分 组 为 “频繁 余额 转 存 
者 ”和 “大 额 转账 者 ”和 群体。 

对 于 “发 现 符合 预定 义 客户 群体 的 模式 ”这 一 任务 ， 数 据 挖掘 的 一 个 非常 值得 研究 的 应 
用 实例 是 美国 电话 电报 公司 (AT&T) 长 途 电话 局 用 来 判定 电话 可 能 用 于 商业 用 途 的 系统 。 

AT&T 把 全 美 拥有 电话 并 且 尚 非 本 公司 客户 的 每 一 个 人 视 为 一 个 潜在 客户 。 出 于 市 场 
营销 的 目的 ， 他 们 长 期 以 来 维护 一 个 电话 号 码 列表 ， 称 作 全 局 列表 (Universe List) 。 这 是 一 
个 尽 可 能 完整 的 美国 电话 号 码 列表 ， 其 中 不 仅 有 AT&T 客户 ， 还 有 非 AT&T 客 户 ， 每 个 客 
户 被 标记 为 商业 用 户 或 住宅 用 户 。 获 取 非 AT&T 客户 的 最 初 方法 是 从 当地 市 话 公 司 购买 电 
话 呈 码 夭 ， 搜 索 没 有 在 AT&T 客户 列表 上 出 现 的 号 码 。 这 样 做 不 仅 费 用 很 高 而 且 不 可 靠 ， 
随 着 提供 号 码 短 的 公司 与 AT&T 竞争 越 来 越 直接 ， 这 种 缺点 变 得 越 来 越 严 重 。 

判定 一 个 号 码 是 住宅 电话 还 是 商用 电话 的 原始 方法 是 打 电 话 询 问 。1995 年 ， 贝 尔 实验 
室 ( 那 时 是 AT&T 的 一 部 分 ) 的 研究 人 员 Corina Cortes 和 Daryl Pregibon 提出 了 一 个 更 好 的 
办 法 。 像 其 他 电话 公司 一 样 ，AT&T 对 经 过 其 网 络 的 每 一 个 电话 收集 通话 详细 数据 〈 他 们 
被 合法 授权 将 这 一 信息 保存 一 定时 间 )。 这 些 电 话 中 有 许多 是 由 非 AT&T 客户 打出 或 接收 
的 。 当 他 们 拨打 AT&T 的 800 号 码 和 从 AT&T 客户 那里 接听 电话 时 ,， 非 AT&T 客户 的 电 
话 号 码 会 出 现在 详细 通话 数据 中 。 用 已 知 商务 活动 产生 的 数据 建立 商业 行为 统计 模型 ， 然 后 
把 它 用 于 对 这 些 记录 进行 分 析 并 给 出 其 商用 性 分 值 。AT&T 称 这 一 分 值 为 “bizocity”， 可 用 
于 判断 应 当 给 某 些 潜在 客户 推出 哪 种 类 型 的 服务 。 

每 个 电话 号 码 每 天 都 被 评分 。AT&T 的 交换 机 每 天 处 理 几 亿 个 电话 呼叫 ， 包 括 大 约 
6 500 万 个 不 同 电话 号 码 。 在 一 个 月 中 ， 他 们 可 以 看 到 超过 3 亿 个 不 同 的 电话 号 码 ， 每 一 个 
号 码 都 被 给 出 一 个 小 小 的 档案 ， 包 括 最 后 见 到 该 号 码 以 来 的 天 数 、 日 均 使 用 分 钟 数 、 该 号 码 
在 网 络 上 出 现 的 平均 时 间 ， 还 有 bizocity 得 分 。 

bizocity 得 分 通过 考虑 该 号 码 打 出 或 接听 电话 的 时 长 、 一 天 中 通话 高 峰 时 间 和 该 号 码 打 
问 已 知 商业 电话 的 呼叫 比率 的 回归 模型 产生 ， 每 天 的 新 数据 都 会 调整 该 得 分 。 实 际 上 ， 该 得 
分 是 随时 间 而 改变 的 一 个 加 权 平 均值 ， 数 据 越 近 所 占 权 重 越 大 。 

bizocity 得 分 能 够 结合 其 他 信息 以 便 寻 址 特定 的 商业 群体 。 一 个 过 去 特别 感 兴趣 的 群体 
是 家 庭 商 务 ， 就 连 当 地 开通 该 号 码 的 市 话 公司 经 常 都 不 把 这 些 看 成 是 商务 。 登 记 为 住宅 地 址 
或 者 被 市 话 公 司 标记 为 住宅 电话 的 那些 具有 高 bizocity 得 分 的 电话 号 码 ， 对 于 针对 在 家 工作 
的 服务 是 一 个 好 的 潜在 客户 群体 。 

2. 将 市 场 调查 群体 与 行为 数据 紧密 联系 起 来 

传统 的 基于 调查 的 市 场 研究 〈survey-based market research) 面临 的 很 大 挑 鼓 之 一 是 ， 对 
于 少数 客户 提供 大 量 信息 。 然 而 ， 要 有 效 地 利用 市 场 调查 结果 ， 经 常 需要 弄 明白 所 有 客户 的 
特征 。 也 就 是 说 ， 市 场 研究 可 以 发 现 有 趣 的 客户 群体 ， 然 后 需要 将 已 有 数据 映射 到 现 有 客户 
群 上 面 。 行 为 数据 对 解决 这 种 问题 格外 有 用 ; 这 样 的 行为 数据 通常 可 以 由 转账 和 账单 记录 汇 
总 而 得 到 。 市 场 调查 的 一 个 必要 条 件 是 ， 首 先 需 要 识别 客户 ， 以 便 市 场 调查 参与 者 的 行为 是 
可 知 的 。 

本 书 中 讨论 的 绝 大 多 数 定向 数据 挖掘 技术 都 能 够 用 于 建立 分 类 模型 ， 然 后 基于 现 有 资料 
将 人 们 分 派 到 某 个 群体 中 。 为 达到 这 个 目的 ， 需 要 有 一 个 已 经 分 类 的 客户 训练 集 。 这 种 工作 
的 成 效 如 何 ， 主 要 依赖 于 客户 行为 对 客户 群体 的 实际 支持 程度 。 
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4.5.3 减少 信用 风险 


学 会 避免 坏 的 客户 〈 并 且 注 意 到 好 的 客户 大 约 要 变 坏 的 时 间 ) 与 留 住 好 的 客户 同样 重 
要 。 大 多 数 交 易 容 易 受 消费 者 信用 (credit risgk) 风险 影响 的 公司 ， 把 进行 客户 信用 筛选 作 
为 获取 过 程 的 组 成 部 分 ， 但 即使 在 客户 被 获取 以 后 ， 风 险 模型 的 使 用 也 没有 停止 。 

1. 预测 谁 将 拖欠 

对 于 任何 客户 佘 账 服务 ， 评 估 现 有 客户 的 信用 风险 都 是 一 个 重要 问题 。 总 会 出 现 一 些 客 
户 接受 服务 后 未 能 付款 这 种 可 能 性 。 无 偿还 债务 是 一 个 明显 的 例子 ; 报纸 订阅 、 电 话 服务 、 
煤气 和 电 、 有 线 电 视 服 务 就 是 那些 通常 只 有 在 使 用 之 后 才 付 款 的 服务 例子 。 

当然 ， 足 够 长 时 间 都 没有 付款 的 客户 最 终 会 被 终止 ， 到 那 时 他 们 或 许 已 经 从 下 大 量 的 钱 
但 必须 被 一 笔 匀 销 。 使 用 一 个 预言 性 模型 的 早期 预警 机 制 ， 公 司 能 够 设法 保护 自己 。 这 些 措 
施 可 以 包括 限制 服务 的 使 用 ， 或 者 减少 付款 延迟 与 中 断 服务 之 间 的 时 间 长 度 。 

未 付款 服务 的 终止 有 时 称 作 强制 流失 (〈involuntary churn) ， 可 以 用 多 种 方式 建 模 。 在 一 
段 固 定 的 时 间 范 围 内 ， 强 制 流失 经 常 被 看 做 一 个 二 元 结局 ， 像 逻辑 回归 和 决策 树 技术 就 适合 
于 这 种 情况 。 在 第 12 章 中 ， 这 个 问题 也 可 看 做 是 一 个 生存 分 析 问 题 ， 实 际 上 是 将 问题 从 
“该 客户 下 个 月 会 不 付款 吗 ?” 转 换 为 “半数 客户 沦 为 强制 流失 的 时 间 还 有 多 久 ?” 

自发 流失 (voluntary churn) 和 强制 流失 之 间 的 一 个 明显 区 别 是 ， 在 账单 延迟 的 不 同 阶 
段 ， 强 制 流失 常常 涉及 复杂 的 交易 过 程 。 随 着 时 间 的 推移 ， 公 司 可 能 会 收 紧 指导 该 过 程 的 规 
则 以 控制 欠 款 数量 。 当 在 相近 的 条 件 中 寻找 精确 的 数字 时 ， 最 佳 方法 可 能 是 对 经 营 过 程 的 每 
一 步 都 建立 模型 。 

2. 改进 回收 资金 机 制 

一 且 客 户 停止 付费 ， 数 据 控 气 就 能 在 回收 资金 方面 起 帮助 作用 。 模 型 用 于 预测 能 够 收回 
费用 的 数量 ， 并 在 某 些 情况 下 帮助 选择 回收 策略 。 回 收 资金 在 根本 上 也 可 看 做 是 某 种 类 型 的 
销售 。 公 司 尽 力 说 服 拖欠 债务 的 客户 支付 本 公司 账单 而 不 是 一 些 其 他 的 账单 。 像 任何 销售 活 
动 一 样 ， 一 些 潜在 的 付款 者 更 愿意 接受 某 种 类 型 的 信息 ， 而 有 一 些 则 更 愿 接受 另 一 类 信息 。 


4.5.4 决定 客户 价值 


客户 价值 计算 是 相当 复杂 的 ， 尽 管 数据 控 握 会 有 所 帮助 ， 但 客户 价值 计算 在 很 大 程度 上 
是 一 件 使 财务 明晰 恰当 的 事情 。 客 户 价值 似乎 可 以 简单 表述 为 ， 源 于 该 客户 的 总 收入 减 去 维 
持 该 客户 的 总 成 本 。 但 是 收入 中 的 多 少 该 归 因 于 一 位 客户 ? 这 是 他 〈 或 她 ) 迄今 为 止 的 全 部 
花费 吗 ? 他 (或 她 ) 这 个 月 花 了 多 少 钱 ? 我 们 期 望 他 〈 或 她 ) 下 一 年 花费 多 少 ?9 一 些 间 接收 
人 如 广告 收入 和 证 券 租赁 等 ， 应 该 如 何 分 配 到 客户 身上 ? 

值得 质疑 的 成 本 问题 就 更 多 ， 包 括 按 特 定 方法 可 被 分 摊 到 客户 身上 的 各 种 成 本 。 即 使 忽 
略 被 分 捧 的 成 本 ， 只 看 直接 成 本 ， 事 情 可 能 仍然 令 人 相当 迷惑 。 客 户 并 不 能 控制 成 本 ， 那 
么 ， 由 于 成 本 超支 而 指责 客户 公平 吗 ? 两 个 网 络 客户 订购 完全 相同 的 商品 ， 公 司 都 承诺 免费 
送 货 ， 住 的 地 方 离 货场 远 的 那个 客户 运输 成 本 可 能 更 高 ， 但 是 她 果真 是 一 个 价值 更 小 的 客户 
吗 ? 如 果 另 一 个 订单 要 运 自 不 同 的 场所 又 会 如 何 呢 ? 移动 通信 服务 提供 者 也 面临 类 似 的 问 
题 ， 现 在 大 多 数 广告 宣称 全 国 统一 费 率 。 当 他 们 不 拥有 整个 网 络 时 ， 这 些 运 营 商 的 成 本 就 不 
是 统一 的 。 一 些 呼叫 在 公司 网 内 转 接 ， 另 一 些 可 能 通过 竞争 对 手 的 网 络 转 接 ， 需 要 收取 较 高 
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费 率 。 该 公司 可 能 通过 试图 劝阻 客户 不 要 打 往 某 些 地 区 来 增加 客户 价值 吗 ? 

当 所 有 这 些 问 题 梳理 出 来 ， 并 且 公 司 对 琵 往 客 户 价值 的 定义 已 经 协商 一 致 ， 数 据 挖掘 就 
可 以 为 评估 潜在 客户 的 价值 而 开始 工作 。 这 归结 为 评估 单位 时 间 内 一 位 客户 会 带 来 的 收入 以 
及 评估 该 客户 的 剩余 生存 期 。 其 中 第 二 个 问题 是 第 12 章 中 要 讨论 的 主要 内 容 。 


4.5.5 交叉 销售 、 提 升 销售 和 销售 推荐 


对 于 现 有 的 客户 ， 客 户 关系 管理 的 主要 着 上 腿 点 是 通过 交叉 销售 (cross-selling)、 提 升 销 
售 〈up-selling) 以 增加 客户 收益 。 数 据 挖掘 用 于 计算 应 该 给 客户 提供 什么 、 给 哪些 客户 提供 
和 在 什么 时 候 提供 。 

1. 发 现 优惠 的 恰当 时 间 

Charles Schwab 投资 公司 发 现 ， 即 使 在 储 蕾 账户 和 投资 账户 有 相当 多 的 隐藏 资金 ， 客 户 
通常 仅 使 用 几 和 于 美元 在 投资 公司 开设 账户 。Schwab 当然 愿意 吸引 那样 的 一 些 资金 余额 。 通 
过 分 析 历 史 数据 ， 他 们 发 现 那些 把 大 量 资金 余 额 转移 到 投资 账户 的 客户 通常 是 在 客户 开设 账 
户 后 的 最 帮 几 个 月 ， 而 几 个 月 以 后 ， 试 图 使 客户 转 人 大 量 资金 余 额 的 努力 很 少 会 得 到 回报 ， 
似乎 最 佳 窗口 已 经 被 关闭 。 从 分 析 得 到 的 这 些 结果 ，Schwab 改变 它 的 营销 策略 ， 从 花 该 客 
户 整个 生存 期 内 发 送 恒 定 的 诱导 信息 流 ， 转 变 为 在 最 初 的 几 个 月 集中 发 送 。 

一 家 同时 有 每 日 订户 和 周 日 订户 的 主流 报纸 也 注意 到 类 似 的 模式 。 周 日 订户 升级 为 每 日 
加 有 周 日 订户 的 现象 ， 通 常 出 现在 客户 关系 建立 的 初期 。 长 年 累 月 只 陶醉 于 周 日 报纸 的 客户 根 
本 不 可 能 改变 他 (或 她 ) 的 习惯 。 

2. 销售 推荐 

交叉 销售 的 一 个 方法 是 利用 第 9 章 的 主题 一 一 关联 规则 。 关 联 规 则 用 于 发 现 通常 可 以 一 
起 出 售 或 者 倾向 于 被 同一 个 人 反复 购买 的 产品 和 能。 已 经 购买 了 簇 中 的 一 些 、 但 并 没 包 括 全 部 
产品 的 客户 ， 对 于 奥 中 那些 尚未 购买 的 产品 来 说 是 好 的 潜在 客户 。 对 于 零售 店 商品 ， 可 发 现 
许多 这 样 的 簇 ， 应 用 交叉 销售 方法 会 很 有 作用 ， 但 在 金融 服务 这 样 的 领域 应 用 该 方法 则 会 收 
效 甚 徽 ， 因 为 这 一 领域 产品 相对 较 少 ， 并 且 许 多 客户 有 相似 的 组 合 购买 ， 这 种 组 合 购买 经 常 
是 因为 产品 打包 和 以 前 营销 工作 而 形成 的 。 


4.6 保持 和 流失 


客户 流失 对 任何 公司 都 是 一 个 重要 问题 ， 对 于 已 经 远离 初始 指数 增长 阶段 (initial period of 
exponential growth) 的 成 熟 行 业 尤 为 重要 。 毫 无 疑问 ， 流 失 (或 者 更 乐观 地 讲 ， 保 持 ) 应 该 
是 数据 挖掘 的 主要 应 用 方面 。 我 们 使 用 的 术语 “流失 ”通常 用 于 电话 行业 ， 指 的 是 各 种 类 型 
客户 的 自发 减少 或 强制 减少 ; 流失 (churn) 是 一 个 有 用 的 词语 ， 因 为 它 既 可 以 用 作 名 词 ， 
也 可 以 用 作 动 词 。 


4.6.1 识别 流失 
给 流失 建 模 首先 要 面 对 的 挑战 之 一 是 ， 确 定 什么 是 流失 以 及 在 出 现时 识别 它 。 这 在 有 些 
行业 比较 困难 ， 一 个 极端 的 例子 是 匿名 现金 交易 商务 活动 。 当 一 个 曾经 忠实 的 客户 放弃 他 经 


常 去 的 咖啡 馆 ， 而 转向 同 街 区 的 另 一 家 ， 熟 记 该 客户 情况 的 那个 吧台 服务 员 可 能 会 注意 到 ， 
但 该 事实 将 不 会 记录 到 任何 公司 数据 库 中 。 即 使 在 按 客 户 名 字 识 别 的 情形 下 ， 要 说 出 已 经 流 
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失 的 客户 和 只 是 有 一 阵 没 来 的 人 之 间 的 区 别 可 能 也 很 困难 。 假 设 有 一 个 忠实 的 Ford 客户 ， 
每 5 年 买 一 辆 新 的 F1S0 敞 莲 小 货车 ， 当 他 已 经 6 年 没 再 购买 时 ， 能 因此 断定 他 已 经 选择 另 
一 品牌 了 吗 ? 

当 有 每 月 一 次 的 结账 关系 时 ， 比 如 信用 卡 ， 流 失 会 比较 容易 发 现 。 然 而 即使 这 样 ， 客 户 
流失 多 半 也 是 悄 无 声息 的 ， 比 如 一 位 客户 停止 使 用 信用 卡 但 实际 没有 销 户 的 情况 。 流 失 在 预 
订 式 的 商务 中 最 容易 分 辨 ， 也许 因为 这 种 原因 ， 流 失 建 模 在 这 些 商 务 中 最 常用 。 长 途 电话 公 
司 、 移 动 通信 业务 提供 商 、 保 险 公 司 、 有 线 电视 公司 、 金 融 服 务 公司 、 因 特 网 服务 供应 商 、 
报纸 、 杂 志和 一 些 零 售 商都 有 一 个 共同 的 预订 模式 ， 在 这 种 模式 中 的 客户 有 正规 的 、 需 要 明 
确 终止 的 契约 关系 。 


4.6.2 流失 为 什么 重要 


研究 流失 是 重要 的 ， 因 为 失去 的 客户 必须 由 新 客户 补 上 来 ， 并 且 获 得 新 客户 的 代价 晶 
贵 ， 而 且 在 短期 内 新 客户 往往 比 已 有 客户 带 来 的 收益 更 少 。 这 一 点 在 市 场 已 经 相当 饱和 的 成 
熟 行业 尤其 如 此 一 一 需要 该 产品 或 服务 的 人 可 能 早已 经 从 某 处 获得 ， 因 此 新 客户 的 主要 来 源 
是 脱离 竞争 对 手 业 务 的 那些 人 。 

图 4-6 说 明 当 市 场 变 得 饱和 时 ， 获 取 活 动 的 响应 率 下 降 ， 获 取 新 客户 的 成 本 上 升 。 该 图 
显示 出 直接 邮寄 活动 获取 每 个 新 客户 所 花费 的 成 本 ， 假 定 邮 寄 成 本 1 美元 ， 还 有 以 某 种 形式 
送出 的 价值 20 美元 的 优惠 服务 ， 例 如 一 张 优 惠 券 或 折扣 利息 率 信 和 贷 卡 等 。 该 获取 活动 的 响 
应 率 高 时 ， 例 如 5% ， 吸 纳 一 个 新 客户 的 成 本 是 40 美元 (花费 100 美元 去 邮寄 给 100 个 人 ， 
其 中 的 5 个 人 响应 ， 每 人 的 响应 成 本 为 20 美元 ， 因 此 5 个 新 客户 共 花 去 200 美元 )。 随 着 响 
应 率 变 低 ， 则 成 本 迅速 增加 : 在 响应 率 降 至 1% 的 时 候 ， 每 个 新 客户 成 本 是 200 美元 。 从 某 
些 方面 来 看 ， 与 其 花 这 些 钱 吸引 新 客户 倒 不 如 留 住 现 有 客户 更 有 意义 。 


4250 


每 位 响应 者 的 成 本 
E 台 


从 
人 


1.0% 2.036 3.036 4.0% 5.036 


图 4-6” 随 着 获取 活动 的 响应 率 下 降 ， 获 取 新 客户 的 单位 成 本 上 升 


保持 活动 可 以 很 有 效 ， 但 也 非常 昂贵 。 移 动 通信 公司 可 能 会 给 续 约 的 客户 提供 一 部 价格 
昂贵 的 新 手机 ， 信 用 卡 公司 可 能 会 降低 贷款 利率 。 提 供 这 些 优惠 的 问题 是 收 到 该 优惠 的 每 一 
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位 客户 都 将 接受 它 。 谁 不 想得到 免费 的 手机 或 者 较 低 的 贷款 利率 ? 这 意味 着 许多 接受 该 优惠 
的 人 即便 不 给 予 优惠 他 们 仍然 会 留 下 来 。 建 立 流失 模型 的 动机 是 计算 出 谁 的 流失 风险 最 大 ， 
以 便 对 没有 额外 的 刺激 就 可 能 离 去 的 高 价值 客户 提供 优惠 ， 使 他 们 留 下 来 。 


4.6.3 不 同类 型 的 流失 


对 流失 为 什么 重要 的 讨论 实际 上 假定 流失 是 自发 的 。 客 户 出 于 自愿 ， 决 定 把 他 们 的 业务 
挪 到 别 的 地 方 ， 这 一 类 型 的 客户 流失 叫做 自发 流失 ， 事 实 上 这 只 是 三 种 可 能 中 的 一 种 ， 其 余 
两 种 是 强制 流失 和 预期 流失 。 

强制 流失 ， 通 常 也 叫 强 制 损耗 〈forced attrition) ， 在 公司 〈 而 不 是 客户 ) 终止 该 关系 时 
发 现 一 一 最 常见 的 原因 是 由 于 客户 未 付 账 单 。 当 客户 不 再 属于 一 个 产品 的 目标 市 场 时 ， 预 期 
流失 〈expected churn) 就 会 发 生 ， 比 如 ,小孩 长 了 牙 就 不 再 需要 婴儿 食品 ; 工人 退休 后 就 
不 再 需要 养老 金 储 蓄 账 户 ; 一 个 家 庭 搬 走 了 ， 就 不 需要 再 将 他 们 订 的 当地 报纸 送 到 家 门口 ， 
等 等 。 

分 清 不 同类 型 的 流失 是 重要 的 ， 也 很 容易 做 到 。 设 想 在 相同 财务 环境 下 的 两 个 移动 电话 
客户 ， 由 于 某 些 不 幸 的 事情 ， 都 不 能 再 承担 得 起 移动 通信 服务 ， 因 而 两 人 都 提出 取消 服务 。 
一 个 人 来 到 客户 服务 代理 处 办 理 ， 被 记 为 自发 流失 ， 另 一 个 人 打 电 话 给 客服 中 心 ， 等 了 10 
分 钟 后 挂 断 了 ， 然 后 继续 使 用 该 手机 ， 却 不 付 账单 ， 第 二 个 客户 被 记 作 强 制 流失 。 缺 钱 这 个 
根本 的 问题 对 于 两 个 客户 是 相同 的 ， 因 此 可 能 他 们 将 得 到 相似 的 分 值 ， 但 该 模型 不 能 预测 这 
两 个 用 户 经 历 的 生存 期 方面 的 差别 。 

把 强制 流失 误 当 作 自 发 流失 的 公司 会 有 双重 损失 一 一 第 一 次 是 他 们 花 冤 枉 钱 试 图 留 住 随 
后 变 坏 的 客户 ， 第 二 次 是 新 增 的 需要 勾 销 的 客户 消费 。 

顶 测 强制 流失 可 能 也 是 危险 的 。 因 为 对 不 大 可 能 付 账 的 客户 的 处 置 令 人 讨厌 一 一 通信 服 
务 被 和 暂停， 滞纳金 增加 ， 催 缴 信 发 得 很 快 。 这 些 措施 可 能 疏远 一 些 也 许 是 好 的 客户 ， 并 增加 
他 们 自发 流失 的 可 能 性 。 

在 许多 公司 ， 自 发 流失 和 强制 流失 由 不 同 部 门 负责 ,营销 部 门 主攻 好 客户 的 保留 ， 财 务 
部 门 则 关注 减少 差 客户 的 出 现 。 从 数据 挖掘 的 观点 看 ， 不 论 是 自发 流失 还 是 强制 流失 ， 一 起 
处 理 二 者 会 更 好 ， 因 为 所 有 的 客户 在 不 同 程度 上 都 存在 这 两 种 类 型 流失 的 风险 。 


4.6.4 不 同类 型 的 流失 模型 


流失 建 模 有 两 种 基本 方法 : 第 一 种 是 把 流失 看 做 二 元 结局 ， 预 测 哪些 客户 将 会 离 去 ， 哪 
些 会 留 下 来 ; 第 二 种 方法 是 设法 评估 客户 的 剩余 生存 期 。 

1. 预测 谁 将 离 去 

把 流失 作为 二 元 结局 建 模 ， 需 要 选取 一 定 的 时 间 范 围 。 如 果 问 题 是 “明天 谁 将 离 去 ?” 
其 答案 几乎 不 会 是 任何 一 位 客户 。 如 果 问 题 是 “100 年 后 谁 将 离 去 ?” 在 绝 大 多 数 商 务 活动 
中 ， 其 答案 几乎 是 每 个 人 。 二 元 结局 流失 模型 通常 有 一 个 相对 较 短 的 时 间 范 围 ， 比 如 60 天 
或 90 天。 时 间 范 围 当然 不 能 太 短 ， 否 则 将 没有 时 间 按 照 模 型 预测 来 采取 行动 。 

包括 逻辑 回归 、 决 策 树 和 神经 网 络 在 内 的 任何 常见 的 分 类 工具 都 能 够 用 来 建立 二 元 结局 
流失 模型 。 可 以 把 描述 一 位 客户 的 历史 数据 与 显示 这 位 客户 在 随后 一 段 时 间 是 否 仍 然 活跃 的 
标志 结合 起 来 。 建 模 的 任务 是 把 即将 离 去 和 留 下 的 客户 区 分 开 来 。 
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二 元 流失 模型 给 出 的 典型 结果 是 一 个 可 以 按 流失 可 能 性 对 客户 分 级 的 分 值 。 最 常见 的 分 
值 只 不 过 是 客户 在 该 模型 时 间 范 围 内 将 要 离开 的 可 能 性 。 超 出 某 一 自发 流失 分 值 阔 值 的 那些 
客户 可 以 被 划 到 保持 计划 中 ， 而 超出 某 一 强制 流失 分 值 闪 值 的 那些 客户 可 以 被 放置 到 观察 列 
表 中 。 

典型 地 ， 对 流失 的 预测 既 要 关注 该 客户 在 获取 时 已 知 的 事件 〈 例 如 获取 渠道 和 初始 信用 
等 级 ) ， 还 要 关注 在 客户 关系 中 出 现 的 事件 〈 例 如 服务 问题 、 谷 期 付款 和 出 乎 意料 的 高 账单 
或 者 低 账 单 ) 。 第 一 类 流失 提供 的 信息 是 如 何 减 少 获 取 倾 向 于 流失 的 客户 ， 以 便 降 低 未 来 的 
流失 ， 第 二 类 流失 用 于 提供 如 何 对 已 存在 的 客户 减少 流失 风险 的 洞察 力 。 

2. 预测 客户 将 要 停留 多 久 

流失 建 模 的 第 二 种 方法 虽然 具有 一 些 吸引 人 的 特征 ， 却 并 不 常用 。 这 种 方法 的 目标 是 计 
算出 客户 可 能 会 保持 多 长 时 间 ， 这 上 比 简单 地 说 该 客户 是 否 将 在 90 天 内 离开 提供 的 信息 更 多 。 
对 客户 剩余 生存 期 的 估计 是 建立 客户 生存 期 价值 模型 的 必要 条 件 。 它 可 能 也 是 客户 忠实 度 分 
值 的 基础 ， 该 分 值 把 忠实 客户 定义 为 在 未 来 将 长 期 保持 的 人 ， 而 不 是 到 现在 为 止 已 经 保持 了 
很 长 时 间 的 人 。 

对 客户 生存 期 建 模 的 一 种 方法 是 拍 下 现 有 客户 群 的 快照 ， 连 同 这 些 客户 最 初 被 获取 时 的 
特征 数据 ， 通 过 发 现 那 些 较 早 获 取 的 长 期 客户 具有 的 共 辣 特征 来 直接 估计 客户 保有 期 。 这 种 
方法 的 问题 是 ， 圈 进 的 客户 时 间 越 长 ， 他 们 被 获得 时 的 初期 市 场 环境 与 当今 环境 相 比 差别 越 
大 。 比 如 ， 假 定 把 1990 年 签订 移动 电话 人 网 协议 的 某 人 的 特征 作为 今天 新 客户 将 保持 服务 
的 预测 器 ， 这 种 做 法 当然 不 可 靠 。 

一 个 更 好 的 方法 是 使 用 从 统计 学 中 借鉴 并 加 以 改进 的 生存 分 析 技 术 ， 这 些 技术 在 医疗 领 
域 被 用 于 研究 病人 在 医学 干预 后 的 生存 率 ， 在 生产 领域 被 用 于 研究 部 件 的 预期 损坏 时 间 等 。 

生存 分 析 将 在 第 12 章 中 进行 讲解 ， 基 本 思想 是 计算 每 位 客户 〈 或 者 是 具有 相同 地 理学 、 
信用 等 级 和 获取 渠道 等 模型 输入 变量 值 的 一 组 客户 ) 迄今 为 止 进展 正常 ， 但 将 要 在 明天 之 前 
离 去 的 概率 。 对 任意 一 个 保有 期 而 言 ， 这 种 风险 性 都 是 非常 小 的 ， 但 对 某 些 保 有 期 会 比 其 他 
一 些 高 。 客 户 将 继续 存在 直到 某 一 更 远 的 未 来 日 期 的 可 能 性 ， 可 以 从 干预 风险 计算 出 来 。 


4.7 小 结 


在 包括 生物 工程 研究 和 制造 过 程控 制 在 内 的 各 个 领域 中 ， 本 书 描述 的 数据 挖掘 技术 都 有 
应 用 。 然 而 ， 本 书 的 目标 读者 是 那些 像 作 者 一 样 ， 将 这 些 技术 应 用 于 在 市 场 营销 和 客户 关系 
管理 中 出 现 的 各 种 商业 问题 的 人 们 。 本 书 绝 大 部 分 选用 的 阐明 某 些 技术 的 示例 中 ， 都 隐 含 了 
以 客户 为 中 心 的 应 用 目标 ， 这 一 点 在 本 章 中 更 为 明显 。 

数据 挖掘 可 以 用 于 广告 和 定向 市 场 营销 ， 以 识别 正确 的 受众 、 选 择 最 佳 沟通 渠道 和 挑选 
最 适当 的 信息 。 溢 在 客户 可 以 与 预期 受众 的 简 档 相 比较 并 给 出 匹配 度 得 分 。 即 使 不 知道 潜在 
客户 个 体 的 信息 ， 利 用 美国 人 口 普查 局 、 加 拿 大 统计 署 和 许多 国家 的 类 似 官方 机 构 来 源 的 这 
类 数据 ， 通 过 同样 的 方法 也 能 为 地 理 上 的 邻居 给 出 匹配 度 得 分 。 

数据 挖掘 在 定向 建 模 方面 的 一 个 重要 应 用 是 响应 建 模 。 响 应 模型 给 出 洪 在 客户 响应 定向 
市 场 营销 活动 可 能 性 的 分 值 。 这 一 信息 能 够 用 于 改善 活动 的 响应 率 ， 但 是 仅 靠 这 一 点 不 能 判 
定 活动 的 收益 。 评 佑 活动 收益 需要 依靠 对 未 来 活动 的 潜在 响应 率 估 计 、 与 响应 相 联系 的 平均 
订购 数量 舍 计 、 执 行 活动 以 及 活动 本 身 的 成 本 估计 。 一 个 更 多 以 客户 为 中 心 的 响应 分 值 的 用 
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途 是 从 许多 竞 销 活动 中 为 每 一 客户 选择 最 佳 活动 。 这 可 以 避免 一 个 常见 问题 ， 即 那些 每 次 都 
选 出 同一 些 人 、 各 自 独 立 的 、 基 于 得 分 的 营销 活动 。 

一 个 模型 可 能 有 识别 对 某 个 产品 或 服务 感 兴趣 的 人 的 能 力 ， 也 可 能 具有 识别 由 于 被 某 个 
特定 营销 活动 或 优 囊 吸 引 而 进行 购买 的 人 的 能 力 ， 把 模型 的 这 两 种 识别 能 力 区 分 开 来 是 非常 
重要 的 。 差 别 响 应 分 析 提 供 了 一 个 方法 ， 可 用 于 识别 活动 将 有 最 好 效果 的 市 场 群体 。 差 别 响 
应 模型 的 目标 是 ,在 目标 群 组 和 对 照 群 组 之 间 ， 寻 求 把 响应 的 差别 最 大 化 ， 而 不 是 试图 将 响 
应 本 身 最 大 化 。 

从 当前 客户 成 为 客户 之 前 的 已 知 信息 中 找 出 目标 结果 的 预测 值 ， 利 用 当前 客户 的 信息 可 
以 识别 出 可 能 的 溢 在 客户 。 这 种 分 析 对 于 选择 获取 渠道 和 联系 策略 以 及 筛选 潜在 客户 列表 是 
有 价值 的 。 公 司 能 够 通过 从 客户 第 一 次 做 出 响应 ， 甚 至 在 他 们 成 为 客户 之 前 ， 就 开始 跟踪 他 
们 ， 并 在 获得 客户 时 收集 和 存储 附加 的 信息 ， 以 些 增加 客户 数据 的 价值 。 

一 旦 获得 客户 ， 公 司 的 工作 重点 就 转换 为 客户 关系 管理 。 现 有 客户 的 可 用 数据 比 潜在 客 
户 的 可 用 数据 更 丰富 ， 由 于 这 些 数据 本 质 上 比 单纯 的 地 理 和 人 口 统计 学 信息 更 具 行 为 科学 
性 ， 因 而 它 具 有 更 好 的 预言 性 。 基 于 客户 当前 使 用 模式 ， 数 据 挖掘 可 用 于 发 现 应 当 提供 给 他 
们 哪些 额外 的 产品 和 服务 ， 也 能 对 交叉 销售 和 提升 销售 的 最 佳 时 机 提出 建议 。 

客户 关系 管理 计划 的 目标 之 一 是 留 住 有 价值 的 客户 。 数 据 挖掘 能 帮助 识别 哪些 客户 最 有 
价值 ， 以 及 评估 与 每 一 客户 相关 联 的 自发 流失 或 强制 流失 风险 。 掌 握 了 这 些 信息 ， 公 司 能 将 
优惠 服务 锁定 于 既 有 价值 又 具 流 失 风 险 的 客户 ， 并 采取 相应 措施 避 开 可 能 违约 的 客户 ， 保 护 
自己 。 

从 数据 挖掘 的 观点 看 ， 流 失 模 型 的 建立 既 可 以 作为 二 元 结局 预测 问题 ， 也 可 以 通过 生存 
分 析 来 解决 。 这 两 种 方法 各 有 利弊 : 二 元 结局 方法 对 于 短期 情况 工作 良好 ， 而 生存 分 析 方 法 
可 用 于 对 来 来 远景 做 出 预报 ， 并 且 提 供 对 客户 忠诚 度 以 及 客户 价值 的 洞察 。 
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第 5 章 统计 学 的 魅力 : 数据 
挖掘 弟 用 的 工具 


从 统计 学 家 (或 经 济 学 家 ) 的 角度 来 看 ， 数 据 挖 掘 长 期 以 来 带 有 某 种 贬义 。 似 乎 数据 控 
掘 不 是 从 大 量 的 数据 中 发 现 有 用 的 模式 ， 而 是 有 寻找 数据 以 适应 某 种 成 见 的 嫌疑 。 这 很 像 政 
客 围绕 选举 的 所 为 一 一 搜寻 数据 来 证 明 他 们 的 政绩 和 成 功 ; 这 当然 不 是 我 们 所 指 的 数据 挖掘 
的 含义 ! 本 章 意 欲 在 统计 学 家 和 数据 挖掘 者 之 间 的 隔 关上 搭建 桥梁 。 

统计 学 和 数据 挖 握 这 两 个 学 科 的 确 非 常 相似 。 统 计 学 家 和 数据 挖掘 者 通常 使 用 许多 相同 
的 技术 ， 现 在 统计 软件 厂商 在 他 们 的 软件 包 中 包含 许多 下 面 8 章 中 将 讲 到 的 技术 。150 多 年 
来 ， 统 计 学 作为 一 门 从 数学 中 分 离 出 的 学 科 ， 帮 助 科学 家 理解 观察 的 意义 ， 设 计 与 科学 方法 
相 联 系 的 、 输 出 可 重复 的 精确 结果 的 实验 。 几 乎 在 所 有 这 段 时 间 内 ， 存 在 的 问题 不 是 数据 太 
多 ， 而 是 太 少 ， 为 此 科学 家 们 不 得 不 用 在 笔记 本 里 手工 收集 的 数据 进行 计算 ， 以 便 更 好 地 了 
解 这 个 世界 。 但 这 些 数值 有 时 被 错 记 ， 有 时 由 于 褪色 或 墨 渍 而 难以 辨认 ， 给 计算 造成 了 更 多 
困难 。 早 期 的 统计 学 家 是 从 事实 际 工作 的 一 些 人 ， 他 们 发 明了 一 些 技术 用 于 处 理 手头 遇 到 的 
各 种 问题 。 如 今 统计 学 家 仍然 是 有 实践 经 验 的 人 ， 他 们 使 用 现代 技术 ， 也 使 用 历经 实践 证 明 
可 靠 的 技术 。 

不 同 寻常 且 值 得 告慰 现代 统计 学 葛 基 者 的 是 ， 在 极 少量 数据 上 发 展 出 来 的 那些 技术 存活 
下 来 ， 并 且 仍 然 被 证 明 是 有 效 的 。 这 些 技术 不 仅 在 最 初 的 那些 应 用 领域 ， 而 且 实 际 上 在 所 有 
存在 数据 收集 的 领域 ， 从 农业 到 心理 学 、 天 文学 万 至 商业 ， 都 证 明了 它们 的 价值 。 

或 许 20 世纪 最 伟大 的 统计 学 家 是 R. A. Fisher， 他 被 许多 人 尊 为 现代 统计 学 之 父 。 在 
20 世纪 20 年 代 ， 现 代 计 算 机 发 明之 前 ， 他 发 明了 设计 和 分 析 科 学 实验 的 方法 。 在 伦敦 郊外 
农场 生活 的 两 年 时 间 里 ， 他 收集 了 各 种 各 样 的 农作物 产量 连同 其 潜在 的 解释 性 变量 一 一 例如 
雨水 、 阳 光 和 施肥 量 等 。 为 理解 什么 对 作物 产 出 有 影响 ， 他 发 明了 新 技术 〈 例 如 方差 分 
析 一 一 ANOVA) ,并 对 收集 的 数据 进行 了 上 百 万 次 计算 。21 世纪 计算 机 芯片 毫 不 费力 就 能 在 
一 秒 钟 内 处 理 许多 个 百 万 次 运算 ， 而 Fisher 的 每 一 次 计算 都 需要 在 手动 计算 机 器 上 拉动 控制 
杆 ， 伴 随 疼痛 的 双手 和 老茧 ， 经 过 日 积 月 累 一 点 一 滴 获 得 结果 。 

计算 机 的 出 现 已 经 明显 地 简化 了 分 析 的 一 些 方面 ， 尽 管 它 的 更 大 作用 或 许 是 产生 了 大 量 的 
数据 。 我 们 的 目标 不 再 是 从 每 一 个 珍贵 的 数据 中 信 取 可 能 的 少量 结果 信息 ， 而 是 变 为 理 清 如 此 
海量 数据 的 意义 ， 因 为 在 原始 格式 下 存在 的 这 些 数据 已 经 远 远 超 出 我 们 头脑 自身 的 理解 能 力 。 

本 章 的 目的 是 介绍 统计 学 的 一 些 关 键 思 想 ， 它 们 已 经 被 证 明 是 数据 控 掘 的 有 用 工具 。 这 
种 介绍 的 定位 ， 既 不 是 全 面 的 统计 学 介绍 ， 也 不 是 泛泛 的 阐述 ; 相反， 它 是 对 一 些 有 用 的 统 
计 学 技术 和 思想 的 介绍 。 这 些 工 具 用 实例 进行 展示 ， 而 不 是 通过 数学 证 明 。 

本 章 开始 于 怀疑 态度 的 介绍 (这 或 许 是 应 用 统计 学 最 重要 的 一 个 方面 )， 然 后 讨论 如 何 
透 过 统计 学 家 的 眼光 来 考察 数据 ， 沿 着 这 一 思路 介绍 重要 的 概念 和 术语 。 本 章 穿 插 讲 述 一 些 
应 用 实例 ， 尤 其 是 置信 区 间 (〈confidence interval) 和 卡 方 检验 (chi-square test) 。 最 后 一 个 示 
例 ， 使 用 卡 方 检验 来 理解 地 理 布局 和 渠道 ， 是 本 章 所 呈现 思想 的 一 个 与 众 不 同 的 应 用 。 本 章 
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最 后 以 数据 挖掘 者 与 统计 学 家 之 间 的 区 别 的 简要 讨论 结束 一 一 他 们 态度 方面 的 差别 仅仅 是 程 
度 上 的 而 不 是 实质 上 的 。 


5.1 oOccam 的 剃刀 


William of Occam 是 一 个 圣 芳 济 会 的 修道 士 ，1280 年 出 生 在 英格兰 的 一 个 小 镇 一 一 这 个 
时 间 不 单 是 在 现代 统计 学 发 明之 前 ， 甚 至 是 在 文艺 复兴 和 印刷 术 之 前 。 作 为 一 位 有 影响 的 哲 
学 家 、 神 学 者 和 教授 ， 他 向 人 们 盖 述 了 关于 事物 的 许多 思想 ， 包 括 教堂 政治 。 身 为 一 个 修道 
士 ， 他 是 一 个 恪守 贫穷 执 约 ， 过 着 严格 自律 生活 的 禁欲 主义 者 ;他 也 是 合理 权力 的 热烈 倡导 
者 ， 和 否认 绝对 真理 的 存在 ， 而 且 赞 成 一 种 现代 哲学 思想 ， 这 种 思想 非常 不 同 于 大 部 分 生活 在 
中 世纪 的 同时 代 人 对 生活 的 看 法 。 

Wiliam of Occam 与 数据 挖掘 有 什么 关系 昵 ? 他 的 名 字 已 经 与 一 个 非常 简单 的 思想 结合 
起 来 。 他 自己 用 拉丁 语 (有 学 问 的 语言 ， 甚 至 那 时 英国 人 也 这 样 认 为 ) 解释 了 它 ，“Entia 
non sunt mnultiplicanda sine necessitate" 。 用 我 们 比较 熟悉 的 话 ， 我 们 会 说 “ 越 简单 越 好 "”， 或 
者 通俗 一 点 ,“ 使 它 保持 简单 ， 傻 瓜 。” 任何 解释 应 该 做 到 : 努力 使 原因 的 数目 变 成 一 个 尽 可 
能 的 最 小 量 ， 这 种 推理 的 思路 被 称 为 Occam 的 剃刀 〈 意 思 是 理 个 光头 是 最 简单 的 ) ， 这 也 是 
William of Occam 对 数据 分 析 的 贡献 。 

Wiliam of Occam 的 故事 有 一 个 很 有 意思 的 结局 : 也 许 因 为 他 对 合理 权利 的 追求 ， 他 也 
相信 教堂 的 权力 应 该 与 国家 权力 分 开 一 一 教堂 应 该 仅 限 于 宗教 性 的 事务 。 这 导致 了 他 反对 罗 
马 教皇 约翰 二 十 二 世 于 预 政治 ， 最 后 自己 被 逐 出 教会 。 他 最 后 在 1349 年 瘦 疫 爆发 期 间 死 于 
莫 尼 黑 ， 留 给 后 代 世 人 的 遗产 就 是 一 种 有 条 理 的 和 批判 性 的 思考 方式 。 


5.1.1 原 假 设 


Ocecam 的 剃刀 对 数据 挖掘 和 统计 学 是 非常 重要 的 ， 虽 然 统 计 学 表达 该 思想 有 一 点 不 同 。 
原 假 设 (null pypothesis) 是 假定 在 观测 中 的 不 同 只 归 因 于 偶然 性 。 举 例 来 说 ， 假 设 有 一 个 
总 统 选举 民意 测验 结果 ， 候 选 人 A 得 票 率 45% ， 候 选 人 了 得票 率 47% 。 因 为 这 一 数据 来 自 
民意 调查 ， 可 能 有 一 些 错误 的 来 源 ， 因 此 ， 数 值 只 是 每 位 候选 人 受 欢 迎 程度 的 大 约 估 计 。 外 
行 可 能 会 问 ,“ 这 两 个 数值 不 同 吗 ?” 统 计 家 对 这 个 问题 的 提问 会 稍微 有 些 不 同 , “这 两 个 数 
值 真正 相同 的 概率 〈probabitity) 有 多 大 ?” 

虽然 两 个 问题 非常 相似 ， 但 是 统计 学 家 表现 了 对 该 问题 的 一 点 态度 。 这 种 态度 就 是 ， 这 
点 差别 可 能 根本 并 不 重要 ， 它 是 一 个 原 假 设 的 例子 。 这 一 例子 看 上 去 虽 有 2% 的 差别 ， 然 而 
这 一 观察 到 的 数值 可 能 由 被 响应 人 的 特定 样本 来 解释 。 取 另外 一 个 样本 有 可 能 给 出 相反 的 
2% 的 差别 ， 或 者 可 能 有 0% 的 差别 ， 这 都 是 民意 调查 相当 可 能 的 结果 。 当 然 ， 如 果 倾 向 有 
20% 的 差别 ， 那 么 它 可 能 很 少 会 是 由 抽取 样本 的 差异 造成 的 。 如 此 大 的 差别 将 大 大 增强 一 位 
候选 人 比 另 一 位 做 得 好 的 可 信和 度 ， 并 大 大 减少 原 假 设 成 真 的 可 能 性 。 

提示 : 最 简单 的 解释 通常 是 最 好 的 一 一 即使 (或 尤其 ) 在 它 没有 证 明 你 想 证 实 的 假 

说 的 时 候 。 

这 种 怀疑 态度 不 论 对 统计 学 家 还 是 数据 挖掘 者 都 是 非常 有 意义 的 。 我 们 的 目标 是 展示 确 
实 起 作用 的 结果 ， 并 尽量 减少 原 假设 。 数 据 挖掘 者 和 统计 学 家 之 间 的 一 个 差别 是 ， 数 据 控 据 
者 时 常 面 对 足够 大 量 的 数据 ， 没 有 必要 去 考虑 那些 归 因 于 偶然 性 事件 的 概率 计算 技巧 。 
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5.1.2 p 值 


原 假 设 不 仅 是 一 种 分 析 方 法 ， 它 也 能 够 被 定量 ， 一 般 常 用 p 值 给 出 原 假 设 为 真 的 概率 。 
记 住 ， 当 原 假设 为 真 时 ， 表 示 真 的 没有 发 生 什么 ， 因 为 差异 归 因 于 偶然 性 。 许 多 统计 学 家 一 
直 在 致力 于 确定 p 值 的 界限 。 

考虑 前 面 总 统 民意 测验 的 例子 。 设 想 p 值 被 计算 为 60% (关于 这 是 如 何 计算 的 更 多 内 
容 将 在 本 章 稍 后 讨论 ) ， 严 格 地 说 ， 这 意味 着 有 60% 的 可 能 性 是 ,民意 测验 给 出 的 对 两 位 候 
选 人 的 支持 率 差别 主要 是 由 于 抽取 样本 的 偶然 性 引起 的 ， 而 非 真 的 是 由 于 大 众 总 体 的 支持 情 
况 造成 的 。 在 此 情况 下 ， 几 乎 没有 证 据 表 明 对 两 位 候选 人 的 支持 是 有 差别 的 。 

让 我 们 来 看 p 值 改 为 S% 的 情形 。 这 是 一 个 相对 来 说 很 小 的 数字 ， 它 意味 着 ， 我 们 有 
95% 的 信心 认为 候选 人 了 比 候选 人 A 做 得 好 。 置 信和 度 ， 有 时 称 为 q 值 ， 是 p 值 的 反面 。 通 
常 的 目标 是 追求 至 少 90% 的 置信 层次 ， 如 果 达 不 到 95% 或 者 更 多 的 话 (这 意味 着 相应 的 p 
值 分 别 小 于 10% 或 者 S% )。 

这 些 概 念 一 一 原 假 设 、p 值 和 置信 度 一 是 统计 学 的 三 个 基本 概念 。 下 一 小 节 将 详细 盖 
述 这 些 概 念 并 介绍 统计 分 布 的 概念 ， 还 将 特别 介绍 正 态 分 布 〈normal distribution) 的 概念 。 


5.2 观察 数据 


统计 是 指 在 抽样 数据 上 进行 的 测度 ， 统 计 学 就 是 对 这 些 测度 和 被 测度 样本 的 研究 。 因 
而 ， 介 绍 统计 学 的 一 个 好 的 起 点 应 该 是 从 这 些 有 用 的 测度 和 如 何 观察 数据 开始 。 


5.2.1 观察 离散 数值 


用 于 数据 挖掘 的 许多 数据 实际 上 是 离散 的 ， 而 不 是 连续 的 ， 这 些 离散 数据 以 产品 、 深 
道 、 区 域 和 有 关 商 务 的 描述 性 信息 表现 出 来 。 这 一 节 讨 论 观 察 和 分 析 离 散 字 段 的 方法 。 

1. 直方 图 

关于 离散 字段 的 最 基本 描述 性 统计 是 不 同 数值 出 现 的 次 数 。 图 5-1 显示 了 一 段 时 间 内 
“停止 ”理由 代码 的 直方 图 〈histogram)。 直 方 图 显示 出 每 个 数值 在 数据 中 出 现 的 频繁 状况 ， 
既 可 以 用 绝对 次 数 (204 次 )， 也 可 以 用 百分数 (14.6% ) 来 表示 。 通 常 有 太 多 的 数值 要 显 
示 在 单个 直方 图 中 ， 例 如 这 个 案例 中 有 超过 30 种 另外 的 代码 被 分 组 到 “OTHER” 类 中 。 


停止 数 
累积 比例 


TI NO OT VN PE CM CP NR MYV EX OTHER 


图 5-1 ”这 个 示例 在 同一 图 表 中 同时 给 出 关于 特定 市 场 营销 工作 的 停止 理由 的 直方 图 
(作为 竖 直 条 形 图 ) 和 累积 比例 〈 作 为 折线 ) 
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除了 每 一 个 类 的 数值 之 外 ， 直 方 图 也 显示 了 停止 的 累积 比例 ， 其 标 度 列 示 在 左 侧 。 通 过 
累积 直方 图 ， 可 能 看 到 出 现 频率 最 高 的 前 三 个 代码 占 停止 理由 的 大 约 50% ， 而 前 10% 的 代 
码 则 几乎 包含 了 90% 的 停止 理由 。 作 为 有 美感 的 注解 ， 表 格 线 在 敏感 的 点 上 横贯 左右 两 边 
的 侧 标尺 ， 使 从 图 中 读 取 数值 更 容易 。 

2. 时 间 序 列 

直方 图 很 有 用 ， 使 用 Excel 或 任何 统计 软件 包 都 能 很 容易 做 出 来 ， 然 而 直方 图 描述 的 只 
是 单一 时 刻 。 数 据 挖 握 经 常 关心 随时 间 的 推 延 会 发 生 什 么 ， 一 个 关键 问题 是 : 随时 间 流 逝 ， 
数值 的 频率 是 否 恒定 不 变 。 

时 间 序 列 分 析 (time series analysis) 需要 对 数据 选择 适当 的 时 间 帧 。 这 不 仅 包括 时 间 的 
单位 ， 还 包括 我 们 从 何 时 开始 计数 。 几 个 不 同 的 时 间 帧 〈time frame) 的 例子 是 : 顾客 关系 
开始 的 时 刻 ， 顾 客 请 求 停止 的 时 刻 ， 实 际 的 停止 日 期 等 诸如 此 类 的 时 刻 。 不 同 的 字段 属于 不 
同 的 时 间 帧 ， 例 如 

。 描述 顾客 关系 开始 的 字段 一 一 如 初始 产品 、 初 始 渠 道 或 初始 市 场 一 应 当 从 顾客 最 初 

开始 日 期 着 手 ; 

。 描 述 顾客 关系 终止 的 字段 一 一 如 最 后 产品 、 停 止 理由 或 停止 渠道 一 一 应 当 在 顾客 关系 

终止 之 日 或 者 顾客 的 保有 期 的 那 一 点 及 时 观察 ; 

。 摘 述 顾客 关系 期 间 事件 的 字段 一 一 如 产品 升级 或 降级 、 对 促销 的 响应 或 滞 纳 付款 一 一 

应 当 在 事件 发 生 之 日 、 顾 客 的 保有 期 的 那 一 时 刻 或 者 在 某 些 其 他 事件 之 后 的 相对 时 间 
等 时 刻 来 观察 。 

下 一 个 步 又 是 标 绘图 5-2 所 示 的 时 间 序 列 。 这 个 图 按照 停止 日 期 有 两 个 停止 序列 ; 一 个 
显示 的 是 某 一 特定 停止 类 型 ( 提 价 停止 ) 随时 间 的 变化 ， 另 一 个 是 停止 的 总 数 。 注 意 时 间 轴 
的 单位 是 以 天 计 的 ， 尽 管 许多 商业 报表 是 在 周报 和 月 报 水 平 完成 的 ， 我 们 还 是 喜欢 按 日 观察 
数据 ， 以 便 看 到 在 精细 水 平 下 可 能 出 现 的 重要 模式 ， 或 者 那些 通过 汇总 可 能 变 模糊 的 模式 。 
在 这 一 案例 中 ， 两 条 线 都 有 清楚 的 上 升 和 下 降 摆 动 模 式 ， 这 是 由 于 停止 是 以 每 周作 为 周期 观 
察 的 。 此 外 ， 浅 颜色 的 线条 描述 的 是 价格 增长 相关 的 停止 ， 该 图 清楚 地 表明 ， 由 于 定价 的 改 
变 ，2 月 份 开 始 停止 出 现 显著 增长 。 

提示 : 当 观 察 一 段 时 间 内 某 字 段 的 值 时 ， 按 日 观察 数据 可 以 得 到 最 细 粒 度 水 平 上 数 

据 的 感觉 。 

时 间 序 列 图 包含 很 多 信息 。 例 如 ， 根 据 数 据 做 出 一 条 直线 可 以 查看 和 量化 长 期 趋势 ， 如 
图 5-2 所 示 。 因 为 季节 性 的 原因 ， 这 样 做 时 要 特别 小 心 。 使 用 非 整 年 份 的 信息 有 可 能 产生 某 
种 片面 性 的 趋势 ， 因 此 使 用 最 佳 匹 配 线 时 应 该 包括 整 年 数据 。 这 个 图 中 的 趋势 显示 出 停止 的 
增加 ， 但 这 也 许 无 需 担 心 ， 因 为 在 这 段 时 间 内 ， 顾 客 数 量 也 在 增长 。 这 提示 我 们 ， 更 好 的 测 
度 方式 应 当 是 停止 率 ， 而 不 是 停止 的 原始 数量 本 身 。 

3. 标准 值 

时 间 序 列 图 提供 了 有 用 的 信息 ， 但 是 并 没有 解释 这 种 随时 间 的 变化 是 预期 的 还 是 意料 之 
外 的 。 为 达到 这 个 目的 ， 需 要 利用 一 些 统计 学 工具 。 

观察 时 间 序 列 的 一 种 方式 是 把 所 有 这 些 数据 作为 一 个 分 区 ， 每 天 一 点 点 来 观察 。 统 计 学 
家 现在 要 问 一 个 怀疑 性 的 问题 :“ 可 以 把 每 天 看 到 的 差异 完全 归 因 于 偶然 性 吗 ?” 这 是 一 个 原 
假设 ， 可 以 通过 计算 p 值 (数值 之 间 的 偏差 能 单纯 用 偶然 性 解释 的 概率 ) 来 回答 。 


免费 领取 更 多 资源 V: 3446034937 


绕 矿 学 朱 奈 力 : 发 据 落 据 入 悄 入 工 具 87 


最 适应 线 表 明 


| 抽 机 ii | 


5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 1 月 2 月 3 月 4 月 5 月 6 月 


图 5-2 本 图 显示 了 用 不 同 标 度 描 绘 的 两 个 时 间 序 列 。 深 颜色 的 线 表 示 总 停止 量 ， 浅 颜色 的 
线 表示 价格 相关 因素 停止 量 ， 它 显示 出 1 月 末 由 于 价格 策略 改变 而 产生 的 影响 


统计 学 家 对 这 一 基本 问题 已 经 研究 了 一 个 多 共 纪 。 幸 运 的 是 ， 他 们 也 找到 解决 这 个 问题 
的 一 些 方法 。 这 是 一 个 关于 样本 差异 的 问题 ， 每 一 天 代表 一 个 取 自 该 期 间 所 有 停止 的 停止 样 
本 ， 在 不 同日 期 观察 的 停止 偏差 可 能 简单 地 归 因 于 在 随机 抽样 过 程 中 的 预期 偏差 。 

在 统计 学 中 有 一 个 基本 定理 ， 叫 做 “中 心 极限 定理 ”， 表 达 如 下 : 

当 从 总 体 中 取出 的 样本 越 多 时 ， 样 本 平均 值 (或 类 似 统计 量 ) 的 分 布 越 接近 正 

态 分 布 。 样 本 的 平均 值 (统计 学 家 称 它 为 均值 ) 青 定 会 越 接近 全 部 总 体 的 平均 值 。 

中 心 极限 定理 实际 上 是 一 个 很 高 深 的 理论 并 且 很 有 趣 ， 更 重要 的 是 它 很 有 用 。 就 离散 变 
量 而 言 ， 比 如 每 一 天 停止 的 客户 数量 ， 具 有 同样 的 规律 。 用 于 这 一 示例 的 统计 量 为 每 日 停止 
计数 ， 如 图 $-2 所 示 。 (严格 说 来 ， 使 用 比例 更 好 ， 如 停止 数量 与 客户 数量 的 比例 ; 在 假定 
该 段 期 间 内 客户 数量 恒定 的 前 提 下 ， 这 与 我 们 所 用 的 计数 是 等 效 的 。) 

正 态 分 布 由 两 个 参数 描述 ， 均 值 和 标准 差 (standard deviation) 。 均 值 是 每 一 天 的 平均 计 
数 ; 标准 差 是 数值 趋向 于 均值 聚集 程度 的 度量 ， 这 将 在 本 章 后 面 进 行 更 详细 的 解释 ， 眼 下 知 
道 可 以 使 用 一 个 函数 (如 Excel 中 的 STDEV () 或 SQL 中 的 STDDEV ()) 进行 计算 就 足 
够 7 了。 对 于 该 时 间 序 列 ， 标 准 差 是 指 每 日 计数 的 标准 差 。 假 定 每 天 的 数值 是 从 整个 时 期 的 停 
止 中 随机 抽取 ， 计 数 的 集合 应 当 遵循 正 态 分 布 ; 如 果 它 们 不 遵循 正 态 分 布 ， 那 就 是 除了 偶然 
性 之 外 还 有 其 他 因素 影响 该 数值 。 注 意 这 并 没有 告诉 我 们 到 底 是 什么 在 影响 该 数值 ， 仅 仅 利 
用 一 个 最 简单 的 解释 一 一 样本 差异 一 一 是 不 足以 解释 它们 的 。 

这 就 是 标准 化 时 间 序 列 数值 的 目的 之 所 在 ， 这 一 过 程 从 平均 值 中 产生 标准 差 的 数值 ; 

。 计 算 全 部 日 期 的 平均 值 。 

。 计 算 全 部 日 期 的 标准 差 。 

。 对 每 个 值 ， 减 去 平均 值 并 除 以 标准 差 以 得 到 距离 平均 值 的 标准 差 的 数值 。 

标准 化 这 些 数值 的 目的 是 测试 原 假 设 。 当 正确 时 ， 标 准 化 值 应 当 遵 循 正 态 分 布 〈 均 值 为 
0 并 且 标 准 差 为 1) ， 且 显示 出 以 下 几 个 有 用 的 性 质 。 首 先 ， 标 准 化 的 值 应 当 取 以 大 体 相 等 的 
频率 出 现 的 负 值 和 正 值 。 同 样 ， 当 标准 化 后 ， 大 约 23 (68.4% ) 的 数值 应 当 在 -1 和 1 之 
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间 ， 略 多 于 95% 的 数值 应 在 -2 和 2 之 间 ,， 大 于 3 或 小 于 - 3 的 数值 应 当 非 常 稀少 一 一 或 许 
在 数据 中 根本 看 不 到 。 当 然 ， 这 里 的 “应 当 ” 是 指数 值 遵循 正 态 分 布 并 且 原 假 设 有 效 〈 即 全 
部 时 间 相 关 影 响 均 由 样本 差异 解释 ) 的 前 提 下 ， 当 原 假设 无 效 时 ， 从 标准 化 值 常 可 以 显 而 易 
见地 看 出 来 。“ 术 语 的 问题 ”部 分 谈 了 关于 分 布 的 更 多 内 容 一 一 正 态 和 非 正 态 分 布 。 

图 5-3 显示 了 图 5-2 中 数据 的 标准 化 值 。 首 先 应 注意 到 的 是 标准 化 曲线 的 形状 与 原始 
数据 的 形状 非常 相似 ， 改 变 的 只 是 纵 轴 的 标 度 。 比 较 两 条 曲线 可 以 发 现 ， 各 自 的 标 度 都 发 生 
了 改变 。 在 前 一 个 图 中 ,总 体 停 止 值 比 定价 停止 值 大 得 多 ， 因 此 两 者 使 用 不 同 的 标 度 显示 。 
在 这 一 个 图 中 ， 标 准 化 的 定价 停止 值 大 大 高 出 标准 化 的 总 体 停止 值 ， 尽 管 两 者 使 用 了 同样 的 
标 度 。 

图 5-3 中 的 总 体 停 止 是 十 分 典型 的 正 态 分 布 ， 但 以 下 几 点 需要 说 明 。 在 12 月 份 有 一 个 
大 的 峰值 ， 这 可 能 需要 解释 ， 因 为 该 值 偏离 平均 值 超过 四 倍 标准 差 ; 还 有 ， 该 图 呈 很 强 的 以 
周 为 周期 的 变化 趋势 ， 也 许 用 每 周 停止 值 取代 每 日 停止 值 来 重 画 这 个 图 ， 在 每 周 的 水 平 上 看 
待 变化 是 个 好 主意 。 


距离 均值 的 标准 差 
(z 值 ) 
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图 5-3 ”标准 化 值 使 我 们 可 能 在 同一 图 表 中 使 用 相同 标 度 对 比 不 同 的 组 ; 这 个 图 显示 
总 体 停 目 数 和 价格 增长 相关 的 停止 数 


显示 价格 相关 停止 值 的 较 浅 线条 明显 不 遵循 正 态 分布 : 负 值 比 正 值 多 得 多 ， 峰 值 出 现在 
高 于 13 处 ， 远 远 高 出 很 多 。 

标准 化 值 〈 或 通常 称 作 z 值 ) 是 十 分 有 用 的 。 这 一 示例 利用 它们 观察 时 间 段 数据 ， 来 看 这 
些 值 是 否 像 是 从 每 一 天 随机 抽取 的 ， 亦 即 ， 是 否 每 日 数值 的 差异 能 够 用 样本 差异 来 解释 。 在 当 
z 值 相对 高 或 低 的 日 期 ， 我 们 怀疑 有 别 的 因素 在 起 作用 ， 有 其 他 因素 影响 停止 的 出 现 。 例 如 ， 
在 定价 停止 中 ， 峰 值 的 出 现 是 因为 定价 的 改变 ， 在 每 日 的 z 值 中 ， 这 种 影响 是 相当 明显 的 。 

z 值 也 因为 其 他 原因 很 有 用 处 。 例 如 ， 它 是 取得 几 个 变量 并 将 其 转化 为 相似 范围 的 一 种 
方法 ， 这 对 几 种 数据 挖掘 技术 〈 例 如 聚 类 和 神经 网 络 ) 都 很 有 用 。z 值 的 其 他 用 途 在 第 17 
章 讨论 数据 转换 时 会 讲 到 。 


术语 的 问题 
统计 学 中 一 个 很 重要 的 观点 是 分 布 的 观点 。 对 于 离散 变量 ， 分 布 很 像 直方 图 一 一 它 表 明 
一 个 给 定 值 以 0 到 1 之 闻 的 概率 出 现 的 频 度 。 例 如 ， 均 匀 分 布 表示 所 有 值 是 均等 出 现 的 。 均 
匀 分 布 的 一 个 例子 是 在 顾客 用 信用 卡 支付 的 商业 活动 中 ， 用 美国 万 国宝 通 卡 、 维 萨 卡 和 万 事 
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达 卡 支付 的 顾客 数量 同样 多 。 

在 统计 学 中 扮演 十 分 特别 角色 的 正 态 分 布 是 连续 变量 分 布 的 例子 。 下 图 显示 的 就 是 正 态 
(有 时 称 为 高 斯 或 钟 型 ) 分 布 ， 其 均值 为 0、 标准 差 为 1。 读 懂 这 一 曲线 的 方法 是 观察 两 点 之 问 
的 区 域 ， 对 于 遵循 正 态 分 布 的 值 ， 该 值 落 在 两 个 值 之 间 〈 例 如 在 0 和 1 之 间 ) 的 概率 是 曲线 下 
的 面积 。 对 于 值 0 和 1， 其 概率 为 34.1%; 这 意味 着 一 个 遵循 正 态 分 布 的 变量 ， 有 34.1% 的 时 
间 将 在 大 于 均值 的 一 个 标准 差 之 内 具有 某 一 个 值 。 因 为 曲线 是 对 称 的 ， 在 小 于 均值 的 一 个 标准 
差 内 另外 还 有 34.1% 的 概率 ， 因 此 有 68.2% 的 概率 处 于 偏离 均值 的 一 个 标准 差 之 内 。 


正 态 分 布 的 概率 密度 函数 看 上 去 像 是 常见 的 钟 形 曲线 

上 面 给 出 了 一 个 钟 形 曲线 图 ， 我 们 称 之 为 正 态 分 布 。 实 际 上 ， 确 切 的 术语 应 该 是 密度 函 
数 〈 或 概率 密度 函数 )。 尽 管 这 一 术语 衍生 自 高 等 数学 概率 论 ， 但 它 是 有 意义 的 。 密 度 函 数 
给 出 一 个 变量 有 多 “ 密 ” 的 程度 。 我 们 通过 度量 两 点 之 间 曲 线 下 的 面积 来 计算 密度 函数 ， 而 
不 是 通过 读 取 单 独 的 数值 本 身 。 在 正 态 分 布 的 情形 下 ， 数 值 密集 在 0 的 周围 ， 并 且 随 着 距离 
远离 0 而 密度 越 来 越 稀 蔚 。 

下 图 显示 了 起 正 呈正 态 分 布 的 函数 。 这 种 变化 范围 从 0 到 工 的 形式 也 叫做 累积 分 布 函 
数 。 数 学 上 ， 值 和 的 分 布 函数 被 定义 为 变量 具有 小 于 或 等 于 X 的 值 的 概率 。 因 为 “小 于 或 
等 于 ”这 个 特性 ， 这 一 函数 总 是 从 0 附近 开始 ， 向 上 攀升 ， 并 到 工 附近 终止 。 一 般 来 说 ， 密 
度 函 数 给 人 们 提供 了 关于 分 布 情况 的 更 直观 提示 。 因 为 密度 函数 提供 了 更 多 信息 ， 经 常 也 称 
为 分 布 ， 尽 管 在 技术 上 这 是 不 正确 的 。 
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了 7090 让 
与 昌 9 有 
305% 


人 0 
056 
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呈正 态 分 布 的 〈 累 积 ) 分 布 函数 呈 S 形 并 绕 立轴 呈 反 对 称 
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4. 从 标准 化 值 到 概率 

标准 化 值 遵循 正 态 分 布 的 假定 使 得 计算 某 个 数值 偶然 出 现 的 概率 成 为 可 能 。 实 际 上 ， 所 
用 的 方法 就 是 计算 某 远离 均值 的 事件 出 现 的 概率 ， 即 p 值 。 确 切 数值 不 值得 深究 ， 因 为 任何 给 
定 的 z 值 都 有 一 个 任意 小 的 概率 。 概 率 被 定义 为 在 z 值 范围 内 正 态 曲线 下 两 点 之 间 的 面积 。 

计算 某 事物 远离 均值 可 能 意味 着 以 下 两 种 情况 之 一 : 

“。 芷 均 值 多 于 z 个 标准 差 的 概率 。 

。 比 均值 大 z 个 标准 差 〈 或 者 比 均 值 小 z 个 标准 差 ) 的 概率 。 

第 -个 称 为 双 尾 状 分 布 〈two-tailed distribution ) ， 第 二 个 称 为 单 尾 状 分 布 (one-tailed 
distribution) 。 该 术语 从 图 5-4 中 可 以 看 得 很 清楚 ， 因 为 分 布 的 拖 尾 正在 测量 。 对 z 值 ， 双 尾 
状 概 率 总 是 单 尾 状 概率 的 两 倍 ， 因 此 ， 双 尾 状 p 值 比 单 尾 状 者 更 保守 ; 就 是 说 ， 双 尾 状 更 可 
能 假定 原 假 设 为 真 。 如 果 单 尾 状 给 出 原 假 设 的 概率 为 10% ， 那 么 双 尾 状 给 出 的 将 是 20%。 
作为 约定 ， 为 保险 起 见 ， 使 用 双 尾 状 概率 计算 更 好 。 


两 个 阴影 区 域 是 Ts et Caraseonoaeoeas rawesnersven 和 后 阴影 区 域 是 比 均 

距离 均值 (大 于 或 上 ec 值 大 两 个 或 两 个 
小 于 ) 两 个 或 者 两 | 村 ”以 上 标准 差 的 概率 
”个 以 上 标准 差 的 人 


概率 密度 


值 
图 5-4， 正 态 分 布 的 尾部 回答 以 下 问题 :“ 得 到 一 个 值 为 z 或 大 于 z 的 概率 是 多 少 ?" 


双 尾 状 分 布 的 p 值 能 够 在 Excel 中 很 方便 地 计算 出 来 ， 因 为 有 一 个 叫做 NORMSDIST 的 
函数 计算 累积 正 态 分 布 。 使 用 这 一 函数 ， 双 尾 状 p 值 等 于 2 * NORMSDIST (-ABS (z))。 
对 于 值 2， 结 果 为 4.6%。 这 意味 着 有 4.6% 的 概率 观测 到 一 个 值 超出 平均 值 两 个 标准 
善 一 一 从 平均 值 加 或 减 两 个 标准 差 。 或 者 换 一 种 说 法 ， 有 95.4% 的 置信 庶 说 明 ， 一 个 值 落 
在 两 个 标准 差 的 外 部 是 由 于 偶然 性 之 外 的 事件 引起 的 。 对 于 精确 到 95% 的 置信 度 ， 可 以 用 
1.96 倍 的 界限 替代 2; 对 于 99% 的 置信 庶 ， 该 界限 为 2.358。 下 列 各 项 显示 了 一 些 通用 置信 
层次 《confidence level) 下 z 值 的 界 跟 ， 

。90% 团 信和 度 -~z 值 >1.64 

。95% 置 信和 度 -~z 值 >1.96 

。99% 置 信和 度 ~>z 值 >2.58 

。99.5% 置 信 度 一 z 值 >2.81 

。99.9% 置 信和 庆 一 z 值 >3.29 

。99.99% 置 信 度 一 z 值 >3.89 

置信 和 度 有 如 下 性 质 : 当 值 不 可 能 是 由 于 偶然 性 引起 时 ， 它 接近 于 100% ; 当归 因 于 偶然 
性 时 它 接 近 于 0。 有 符号 〈 正 或 者 负 ) 的 置信 度 增 加 了 关于 该 值 是 过 低 还 是 过 高 的 信息 。 当 
观测 值 低 于 平均 值 时 ， 有 符号 的 置信 和 度 为 负 值 。 


ee 生生 
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图 5-5 显示 了 图 5-2 和 图 5-3 中 所 示 数 据 的 有 符号 的 置信 度 ， 使 用 双 尾 状 概 率 。 有 符号 
的 置信 度 形状 与 早期 的 形状 不 同 。“ 停 止 ”总 体 各 处 摆动 ， 通 常 保持 在 合理 的 界限 以 内 。 然 
而 定价 相关 停止 再 一 次 呈现 出 非常 独特 的 模式 ， 在 很 长 时 间 内 是 很 低 的 ， 剧 烈 增 加 后 又 下 
降 。 有 符号 置信 度 水 平 界 限 为 100% 和 - 100% 。 在 本 图 中 ， 极 值 接近 100% 或 -100%， 且 
很 难说 出 在 99.9% 和 99.99999% 之 间 的 区 别 。 要 区 别 接近 极端 的 数值 ， 图 $-3 中 的 z 值 比 有 
符号 的 置信 和 度 更 好 。 


1009%e 
7596 


有 符号 的 置信 度 
(q 值 ) 
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图 5-5 以 图 5-2 和 5-3 相同 的 数据 为 基础 ， 该 图 显示 了 基于 平均 值 和 标准 差 的 被 观测 值 的 
有 符号 置信 度 〈(q 值 )。 当 被 观测 值 过 高 时 此 符号 为 正 ， 过 低 时 为 负 


5. 交叉 表 

时 间 序 列 是 交叉 表 (cross-tabulation) 的 一 个 例子 
对 于 时 间 序 列 ， 第 二 变量 为 某 事件 发 生 的 时 间 。 

表 5-1 显示 了 本 章 稍 后 使 用 的 一 个 例子 ， 该 交叉 表 显 示 出 如 下 三 种 渠道 下 来 自 纽约 州 东 
南部 和 郡 县 的 新 客户 数量 :“ 电 话 销售 ”“ 直 接 邮寄 ”和 “其 他 ”5 表 中 不 仅 显示 原始 计数 还 显 


同时 观察 两 个 或 更 多 变量 的 值 。 


示 相 对 频率 。 

表 5-1 按 郡 县 和 渠道 显示 的 交叉 表 
站 
BRONX ] 342 413 2 936 6 561 2.5% 0.3% 2.3% 5.1% 
KINGS 9773 1 393 11 025 22 191 7.7% 1.1% 8.6% 17.4% 
NASSAU 3 135 1573 10 367 15 075 2.5% 1.2% 8.1% 11.8% 
NEW YORK 7 194 2 867 28 965 39 026 5.6% 2.2% 22.7% 30.6% 
QUEENS 6 266 1380 10 954 18 600 4.9% 1.1% 8.6% 14.6% 
RICHMOND 784 277 1772 2 833 0.6% 0.2% 1.4% 2.2% 
SUFFOLK 2 911 1 042 7 159 11 112 2.3% 0.8% 5.6% 8.7% 
WESTCHESTER Pt 1230 8 271 12 212 2.1% 1.0% 6.S% 9.6% 

总 计 35 986 10 175 81 449 127 610 28.2% 8.0% 63.8% 100.0% 


免费 领取 更 多 资源 V: 3446034937 


92 荔 章 


将 交叉 表 数 据 以 一 种 更 直观 的 方式 表达 出 来 也 是 可 能 的 ， 然 而 ， 由 于 呈现 了 许多 的 数 
据 ， 一 般 人 很 难 领会 复杂 的 图 形 。 图 5-6 显示 了 该 表 所 列 计数 的 曲面 图 ， 该 曲面 图 看 起 来 有 
点 像 丘陵 地 带 ， 计 数 是 丘陵 的 高 度 ， 郡 县 沿 一 个 边 前 进 ， 渠 道 构成 了 第 三 维 。 这 一 曲面 图 显 
示 出 曼哈顿 〈 属 于 纽约 县 ) 的 “其 他 ”渠道 很 高 。 尽 管 在 本 例 中 不 是 问题 ， 但 曲面 图 的 山峰 
可 能 遮掩 其 他 的 丘陵 和 山谷 。 
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NEW YORK 
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图 5-6 曲面 图 提供 了 交叉 表 数 据 的 直观 界面 


5.2.2 观察 连续 变量 


统计 学 最 初 是 为 了 理解 科学 家 收集 的 数据 ， 大 部 分 采用 连续 测量 的 形式 。 在 数据 挖掘 
中 ， 我 们 不 常 遇见 连续 数据 ， 因 为 还 有 很 多 描述 性 的 数据 。 本 节 从 描述 统计 学 的 观点 讨论 连 
续 数 据 。 

1. 连续 变量 的 统计 学 度量 

最 基本 的 统计 学 度量 描述 一 组 数据 只 用 单一 值 ， 最 常用 的 统计 量 是 均值 或 平均 值 (所 有 
数值 之 和 除 以 数据 的 个 数 )。 需 要 说 明 的 其 他 一 些 重要 的 概念 是 : 

变动 范围 (range) : 变动 范围 是 样本 中 最 小 值 和 最 大 观察 值 之 差 ， 变 动 范围 经 常 连同 最 
小 值 和 最 大 值 一 起 观察 。 

均值 (mean) : 这 也 就 是 通常 所 说 的 平均 值 。 

中 值 (median) : 中 值 是 把 观察 资料 分 为 两 个 相等 大 小 的 组 ， 一 个 组 具有 的 观察 资料 比 
中 值 小 ， 另 一 个 组 包含 的 观察 资料 比 中 值 大 。 

众 数 (mode) : 这 是 指 最 常 出 现 的 那个 值 。 

中 值 用 于 一 些 不 可 能 计算 均值 的 情况 ， 例 如 ， 当 收入 以 10 000 美元 为 界限 报告 ， 而 最 
后 一 个 类 为 “100 000 美元 以 上 ”时 ， 每 一 组 中 的 观察 对 象 的 个 数 是 已 知 的 ， 但 实际 数值 是 
未 知 的 。 此 外 ， 中 值 很 少 被 一 些 与 其 他 数值 相差 很 大 的 观察 资料 所 影响 。 例 如 ， 如 果 比 尔 ， 
盖 蒋 迁居 到 你 的 街区 ， 邻 居 的 平均 净 资 产 将 显著 增加 ， 但 中 值 净 资 产 可 能 根本 不 改变 。 

另外 ， 各 种 各 样 的 用 于 表征 变动 范围 的 方式 也 都 是 有 用 的 ， 变 动 范围 本 身 介 于 最 小 值 和 
最 大 值 之 间 。 查 看 百分点 信息 常常 是 值得 的 ， 像 查看 第 25 个 和 第 75 个 百分点 ， 就 可 以 了 解 
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中 间 一 半数 值 的 极限 。 

图 5-7 显示 了 描绘 按 日 订购 数量 变动 范围 和 平均 值 的 一 个 图 表 。 该 图 表 的 垂直 轴 采 用 对 
数 〈log) 标 度 ， 因 为 最 小 订购 量 在 10 美元 以 下 而 最 大 订购 量 超过 1 000 美元 。 事 实 上， 最 
小 值 一 直 在 10 美元 左右 ， 平 均值 在 70 美元 左右 ， 最 大 值 在 1 000 美元 。 与 离散 变量 一 样 ， 
对 连续 数值 ， 利 用 时 间 图 来 掌握 非 预 期 事物 何 时 出 现 也 是 有 价值 的 。 

2. 离 差 与 标准 差 

离 差 度量 样本 的 分 散 程 度 或 者 观测 值 坪 绕 平均 值 聚 集 的 紧密 程度 。 变 动 范围 不 能 很 好 地 
反应 分 散 状况 ， 因 为 它 只 考虑 了 两 个 极端 值 。 去 掉 一 个 极 值 有 时 会 显著 改变 变动 范围 。 相 
反 ， 离 盖 考 虑 每 一 个 值 。 某 个 观测 值 和 样本 均值 两 者 之 差 称 为 偏差 ， 离 差 被 定义 为 偏差 的 平 
方 的 平均 值 。 

标准 差 ， 即 离 差 的 平方 根 ， 最 常用 于 度量 分 散 的 程度 。 它 比 离 差 更 方便 ， 因 为 它 具 有 与 
观测 值 相 同 的 单位 ， 而 不 是 其 单位 的 平方 。 这 就 容许 标准 差 本 身 可 以 用 作 度 量 单位 。 我 们 从 
前 用 过 的 z 得 分 ， 就 是 用 标准 差 测定 的 观测 值 与 平均 值 的 距离 。 利 用 正 态 分 布 ，z 得 分 能 够 
转换 为 概率 或 置信 和 诬 。 


订单 数量 (对 数 标 度 ) 


图 5-7 ”时间 图 表 也 能 用 于 表示 连续 数值 ; 此 表 显 示 了 每 日 订购 数量 的 变动 范围 和 平均 值 


5.2.3 另 一 对 统计 概念 


相关 性 〈correlation) 是 考察 一 个 变量 的 改变 与 另 一 变量 的 改变 关联 程度 大 小 的 度量 。 
相关 性 的 变动 范围 从 - 1 到 1。 相 关 性 为 0 意味 着 这 两 个 变量 不 相关 。 相 关 性 为 1 意味 着 当 
第 一 个 变量 改变 时 ， 第 二 个 肯定 将 按 同一 方向 改变 ， 尽 管 未 必 改 变相 同 的 数量 。 另 一 个 相关 
性 度量 是 R? 值 ， 该 值 为 相关 性 的 平方 ， 从 0 (不 相关 ) 到 1 (完全 相关 )。 例 如 ， 圆 的 半径 
和 周 长 完全 相关 ， 尽 管 后 者 比 前 者 增长 快 得 多 。 相 关 性 为 负 值 意味 着 两 变量 按 相反 方向 改 
变 ， 例 如 ， 海 拔高 度 负 相 关于 大 气压 力 。 

回归 (regression) 是 用 一 对 相关 变量 的 一 个 值 来 预测 另 一 个 值 的 过 程 。 回 归 的 最 普通 
形式 是 线性 回归 ， 这 样 叫 是 因为 企图 做 出 一 条 直线 穿 过 样本 中 观测 的 X 和 YY 对 。 一 旦 这 条 
线 被 确定 ， 就 能 够 用 于 预测 给 定 任意 入 值 时 的 Y 值 ， 以 及 给 定 任意 Y 值 时 的 X 值 。 
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5.3 测定 响应 


本 节 考 察 市 场 活动 环境 下 的 统计 学 思想 。 支 持 者 -~ 挑战 者 营销 方法 尝试 与 正常 的 业务 
不 同 的 观念 。 例 如 ， 假 定 一 个 公司 每 个 月 派送 一 百 万 份 促销 插页 来 诱导 客户 。 他 们 决定 用 一 
种 促销 插页 的 方法 ， 即 支持 者 促销 ， 另 一 种 促销 是 针对 支持 者 促销 的 赵 战 者 。 比 较 二 者 的 方 
法 是 : 


问题 是 ， 如 何 知道 一 种 促销 比 另 一 种 好 ? 本 节 引 入 置信 度 思想 来 更 加 详细 地 探讨 这 个 问 
题 。 


5.3.1 比例 标准 误差 


回答 这 一 问题 的 方法 是 使 用 置信 度 区 间 的 概念 。 在 上 述 情况 中 ， 挑 战 者 促销 是 向 顾客 的 
随机 子 集 派送 的 。 基 于 这 一 子 集中 的 响应 ， 这 种 促销 对 整个 总 体 预期 的 响应 情况 是 什么 ? 

例如 ， 假 设 初 始 群体 中 S0 000 人 有 可 能 对 挑战 者 促销 做 出 响应 ， 而 期 望 大 约 有 S$ 000 人 
做 出 实际 响应 ， 占 收 到 挑战 者 促销 总 数 的 10% 。 如 果 正 好 这 么 多 数量 的 人 做 出 响应 ， 那 么 
该 样本 的 响应 率 和 总 体 的 响应 率 均 为 5%。 然 而 ， 有 可 能 (尽管 非常 非常 不 太 可 能 ) 所 有 
50 000 响 应 者 都 处 于 “ 收 到 该 挑战 者 促销 ”的 样本 中 ， 这 将 产生 50% 的 响应 率 。 另 一 方面 ， 
也 有 可 能 〈 并 且 也 非常 非常 不 太 可 能 ) 30 000 人 中 没有 一 个 被 选 人 样本 中 ， 那 样 响应 率 就 是 
0% 。 在 任何 总 体 的 10% 的 样本 中 ， 观 测 到 的 响应 率 可 能 低 到 0% ， 或 者 高 达 50% ， 当 然 这 
些 是 极端 值 ， 实 际 值 可 能 更 接近 S% 。 

到 目前 为 止 ， 这 一 例子 已 展示 了 能 够 从 总 体 中 抽取 许多 不 同 的 样本 。 现 在 让 我 们 回顾 这 一 
情形 并 假定 已 经 观察 到 样本 中 有 5 000 个 响应 者 ， 那 么 关于 整个 人 口 总 体 ， 它 告诉 了 我 们 什么 ? 
同样 ， 有 可 能 这 些 是 总 体 中 所 有 的 响应 者 ， 因 此 低 端 估计 为 0.$S% ; 另 一 种 可 能 是 ， 另 外 的 每 
个 人 同样 都 是 响应 者 (我 们 在 选择 样本 时 非常 非常 不 幸 )， 那 么 高 端 值 将 是 90.5% 。 

这 就 是 说 ， 有 100% 的 置信 度 说 明 ， 总 体 的 实际 响应 率 在 0.5% 到 90.5% 之 间 。 有 高 的 
置信 度 是 好 的 ， 然 而 ， 范 围 太 宽 没 有 用 处 。 我 们 宁愿 设置 一 个 较 低 的 置信 和 度 水 平 ， 通 常 ， 
95% 或 99% 的 置信 和 度 对 于 市 场 营销 目的 就 已 经 足够 了 。 

响应 值 的 分 布 遵循 二 项 式 分 布 。 幸 运 的 是 ， 二 项 式 分 布 与 我 们 处 理 超过 几 百 人 的 一 个 总 
体 人 群 时 的 正 态 分 布 很 相似 。 在 图 5-8 中 ， 锯 齿 状 线条 为 二 项 式 分 布 ， 平 滑 线 条 为 相应 的 正 
态 分 布 ， 它 们 几乎 相同 。 

要 解决 的 问题 是 : 在 假定 大 小 为 100 000 的 样本 响应 率 为 S% 的 条 件 下 ， 决 定 相应 的 正 
态 分布 。 像 先前 提 到 的 那样 ， 正 态 分 布 有 两 个 参数 ， 均 值 和 标准 差 。 均 值 是 样本 中 观测 到 的 
平均 值 (5% )。 要 计算 标准 差 ， 我 们 需要 一 个 公式 ， 统 计 学 家 已 经 给 出 了 标准 善 〈 严 格 说 
来 ， 这 里 是 标准 误差 ,但 对 我 们 来 说 ， 二 者 是 等 价 的 ) 和 均值 以 及 比例 样本 大 小 之 间 的 关 
系 ， 这 叫做 比例 标准 误 盖 (SEP) ， 公 式 为 : 


/px GD) 
SEP= / 
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图 5-8 统计 学 家 已 证 明 ， 总 体 的 实际 响应 率 非常 接近 正 态 分 布 ， 其 均值 为 
观察 到 的 样本 响应 ， 其 标准 差 为 比例 标准 误差 〈(SEP) 


在 这 个 公式 中 ,了 是 平均 值 ，N 是 总 体 的 大 小 。 因 此 ， 与 正 态 分 布 对 应 的 有 一 个 标准 
差 ， 它 等 于 观测 响应 与 1 减 观 测 响应 的 乘积 除 以 样本 总 数 ， 然 后 取 平 方 根 。 

我 们 已 注意 到 ， 遵循 正 态 分 布 的 数据 大 约 有 68% 位 于 一 个 标准 差 范围 之 内 。 对 于 
100 000 的 样本 大 小 ， 该 公式 为 SQRT (5% * 95%7/100 000)， 得 数 约 为 0.07%。 因 此 有 
68% 的 置信 和 度 可 以 说 ， 实 际 响 应 率 在 4.93% 和 5.07% 之 间 。 又 注意 到 ， 在 两 个 标准 差 之 内 
的 值 略 高 于 95% ， 因 此 在 4.86% 到 5.14% 的 范围 内 ， 有 稍稍 超过 95% 的 置信 度 。 如 果 对 该 
挑战 者 促销 观测 到 S% 的 响应 率 ， 那 么 我 们 有 超过 95% 的 置信 度 认 为 ， 整 个 总 体 的 响应 率 将 
在 4.86% 和 5.14% 之 间 。 需 要 注意 的 是 ， 这 一 结论 成 立 的 条 件 是 “得 到 挑战 者 促销 的 人 确 
实 是 从 整个 总 体 中 随机 选择 出 来 的 ”这 一 事实 。 


5.3.2 使 用 置信 界限 比较 结果 


前 一 节 讨 论 了 运用 于 收 到 挑战 者 促销 的 一 个 群 组 的 响应 率 的 署 信 区 间 问 题 。 在 该 案例 
中 ， 实 际 上 有 两 个 响应 率 ， 一 个 是 针对 支持 者 ， 另 一 个 是 针对 挑战 者 。 这 些 响 应 率 不 同 吗 ? 
注意 观测 到 的 比率 也 许 是 不 同 的 〈 比 方 说 S5% 和 5$.001% )， 但 也 许 很 难 把 它们 互相 区 分 开 
来 。 回 答 这 一 问题 的 一 种 途径 是 观察 每 一 响应 率 的 置信 区 间 ， 看 它们 是 否 重 肆 。 如 果 该 区 间 
并 不 重 玖 ， 那 么 响应 率 是 不 同 的 。 

这 个 例子 研究 了 支持 者 模型 在 4.3% 到 35.5% 范 围 的 响应 率 。 单 一 的 响应 率 在 实践 中 可 
能 是 已 知 的 。 然 而 ， 研 究 一 个 范围 内 的 响应 率 可 以 了 解 到 ， 当 响应 率 从 低 得 多 (4.5%) 到 
相同 (5.0% ) 再 到 大 得 多 ($.S% ) 时 ， 会 出 现 什么 情况 。 

95% 的 置信 度 是 偏离 均值 1.96 个 标准 差 ， 因 此 最 低 值 为 均值 减 去 标准 差 的 这 些 倍数 ， 
最 高 值 是 均值 加 上 这 个 值 。 表 5-2 显示 了 支持 者 模型 从 4.S% 到 5.5% 的 响应 率 范 围 的 最 低 
和 最 高 界限 。 


表 5-2 ”支持 者 群 组 的 95% 置 信 区 间 范 围 


响 应 大 小 SEP 95% 的 置信 度 95% 的 置信 度 * SEP 最 低 值 最 高 值 
4.S% 900 000 0.0219% 1.96 0.0219% x* 1.96=0.0429% 4.46% 4.54% 
4.09% 900 000 0.0221% 1.906 0.02219%*1.96=0.0433% 4.56% 4.64% 


4.79% 900 000 0.0223% 1.96 0.0223% * 1.96=0.0437% 4.66% 4.74% 
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( 续 ) 
响 应 大 小 SEP 95% 的 置信 度 95% 的 置信 和 度 * SEP 最 低 值 最 高 值 
4.8% 900 000 0.0225 上 % 1.96 0.0225% * 1.96=0.0441% 4.76% 4.84% 
4.9% 900 000 0.0228% 1.96 0.0228% * 1.96=0.0447% 4.86% 4.94% 
S.0% 900 000 0.0230% 1.96 0.0230% * 工 .96=0.04519%0 4.959% 5.05% 
5.1% 900 000 0.0232% 1.96 0.0232% * 1.96=0.0455% 5.05% 5.15% 
5.2% 900 000 ”0.0234% 1.96 0.0234% x 1.96=0.0459% 5.15% 5.25% 
5.3% 900 000 0.0236 上 % 1.96 0.0236% * 1.96=0.0463% 5.25% 5.35% 
5.4% 900 000 0.0238% 1.96 0.0238% * 1.96=0.0466% 5.35% 5.45% 
5.5% 900 000 0.0240 上 % 1.96 0.0240% * 1.96=0.0470% 5.45% 5.55% 


注 : 响应 率 从 4.$% 变 化 到 5$.$S% 。95% 的 置信 层次 的 界限 用 偏离 均值 1.96 个 标准 差 计算 。 

基于 这 些 可 能 的 响应 率 ， 可 以 指出 该 置信 界限 是 否 重 人 释 。 挑 战 者 模型 95% 的 置信 界限 
是 从 大 约 4.86% 到 5$.14% ， 当 响应 率 是 4.9% 、5.0% 或 5.1% 时 ， 这 些 界限 与 支持 者 模型 
的 置信 界限 重要 。 例 如 ，4.9% 响应 率 的 置信 区 间 从 4.86% 到 4.94% ， 它 确实 重 释 于 
4.86% 至 5$.149% 。 利 用 界限 重 释 方 法 ， 可 以 认为 它们 从 统计 学 角度 上 说 是 相同 的 。 
5.3.3 使 用 比例 差 值 比较 结果 

界限 重 本 方法 很 容易 ， 但 其 结果 有 点 悲观 。 换 名 话说， 即使 置信 区 间 重 肆 ， 我 们 也 许 
仍然 确信 ， 该 差异 并 不 归 因 于 给 定 置信 层次 下 的 偶然 性 。 另 一 种 方法 是 观察 响应 率 之 间 的 


差别 ， 而 不 是 响应 率 本 身 。 正 像 比例 标准 误差 有 公式 一 样 ， 比 例 差 值 的 标准 误差 (standard 
error of a difference of proportion，SEDP) 也 有 一 个 公式 ， 


SEDP | 2 2 
人 


这 个 公式 看 起 来 很 像 比例 标准 误差 公式 ， 只 不 过 平方 根 内 的 部 分 是 对 每 一 组 都 重复 类 似 
计算 。 表 5-3 显示 了 这 个 公式 应 用 于 支持 者 - 挑 吉 者 问题 ， 支 持 者 群 组 响应 率 从 4.5% 变 化 
到 5.5% 时 的 情况 。 

表 5-3 ”支持 者 和 挑战 者 群 组 间 差 值 95% 的 置信 区 间 界 限 


挑 战 者 支 持 者 差 值 
响应 大 小 响应 大 小 值 SEDP z 值 p 值 
5.0% 100 000 4.5% 900 000 0.5% 0.07% 6.9 0.0% 
S.0% 100 000 4.6% 900 000 0.4% 0.07% 5.5 0.0% 
5.0% 100 000 4.79% 900 000 0.3% 0.07% 4.1 0.0% 
5.0% 100 000 4.8% 900 000 0.2% 0.07% 2.8 0.6% 
5.0% 100 000 4.9% 900 000 0.1% 0.07% 1.4 16.8% 
5.0% 100 000 5.0% 900 000 0.0% 0.07% 0.0 100.0% 
5.0% 100 000 5.1% 900 000 一 0.1% 0.07% 一 1.4 16.9% 
5.0% 100000 5.2% 900 000 一 0.2% 0.07% 运作 0.6% 
5.0% 100 000 5.3% 900 000 一 0.3% 0.07% -4.1 0.0% 
5.0% 100 000 5.4% 900 000 一 0.4% 0.07% 二 .5 0.0% 
5.0% 100000 | 5.5% 900 000 一 0.5% 0.07% -6.9 0.0% 
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通过 比例 的 差 值 ， 支 持 者 的 三 种 响应 率 拥有 低 于 9$% 的 置信 和 度 〈 换 句 话说 ， 该 p 值 超 
过 5% )。 如 果 挑 战 者 响应 率 是 S% ， 而 支持 者 是 5.1% ， 那 么 响应 率 的 差 值 可 能 归 因 于 偶然 
性 。 但 是 ， 如 果 支 持 者 拥有 5.2% 的 响应 率 ， 那 么 把 这 个 差 值 归 因 于 偶然 性 的 可 能 将 下 降 到 
不 足 1 个 百分点 。 

警告: 置信 区 闻 只 衡量 抽样 影响 结果 的 可 能 性 大 小 。 也 许 我 们 需要 考虑 许多 其 他 因 

素 ， 以 确定 两 个 促销 之 间 是 否 有 显著 的 差别 。 要 使 比例 差 值 方法 真正 起 作用 ， 每 个 

群 组 必须 完全 随机 地 从 整个 总 体 选 取 。 


5.3.4 样本 大 小 


比例 标准 误差 和 比例 差 值 的 标准 误差 公式 中 都 含有 样本 大 小 这 一 项 。 样 本 大 小 和 置信 区 
间 大 小 之 间 是 倒数 关系 : 样本 大 小 越 大 ， 置 信 区 间 就 越 狭 窗 。 因 此 ， 如 果 想 得 到 更 多 的 置信 
度 ， 就 要 使 用 更 大 的 样本 。 

表 5-4 显示 了 不 同 挑战 者 群 组 大 小 的 置信 区 则 ， 假 定 挑战 者 响应 率 看 做 5% 。 对 于 很 小 
的 差别 ， 置 信 区 间 很 宽 ， 经 常 的 情况 是 置信 区 间 太 宽 以 至 于 没有 用 处 。 先 前 ， 我 们 已 经 说 过 
正 态 分 布 是 实际 响应 率 的 估计 近似 值 ; 对 于 小 的 样本 ， 该 估计 并 不 准确 。 统 计 学 有 几 种 方法 
来 处 理 如 此 小 的 样本 问题 ， 但 这 通常 并 不 能 引起 数据 挖掘 者 多 大 兴趣 ， 因 为 我 们 使 用 的 样本 
要 大 得 多 。 


表 5-4 不 同 大 小 的 挑战 者 群 组 95% 的 置信 区 间 


响应 大 小 比例 的 标准 误差 95% 的 置信 和 度 低 点 高 点 宽度 

S.0% 1 000 0.6892% 1.96 3.65% 6.35% 2.70% 
S.0% 5 000 0.3082% 1.96 4.40% 5.60% 1.21% 
3S.09% 10 000 0.2179% 1.96 4.57% S.43% 0.85% 
35.0% 20 000 0.1541% 上 .96 4.70% S.30% 0.60% 
S.0% 40 000 0.1090% 1.96 4.79% S.21% 0.43% 
3S.0% 60 000 0.0890% 1.96 4.83% S.179% 0.3S% 
S.0% 80 000 0.0771% 1.96 4.85% 5.135% 0.30% 
5.0% 100 000 0.0689% 1.96 4.86% 5.14% 0.27% 
5.0% 120 000 0.0629% 1.96 4.88% 5.12% 0.25% 
S.0% 140 000 0.0582% 1.96 4.89% 5.11% 0.23% 
S.0% 160 000 0.0545% 1.96 4.89% S.11% 0.21% 
5.0% 180 000 0.0514% 1.96 4.90% 5.10% 0.20% 
S.0% 200 000 0.0487% 1.96 4.90% 5.10% 0.19% 
S.0% 500 000 0.0308% 1.96 4.94% S.06% 0.12% 
5.0% 1 000 000 0.0218% 1.96 4.96% 5.04% 0.09% 


5.3.5 置信 区 间 的 真正 含义 
置信 区 间 只 是 对 结果 的 统计 离 差 的 一 种 度量 。 假 设 其 他 任何 条 件 保 持 相 同 ， 它 所 测量 的 


就 是 通过 抽样 过 程 引 入 的 不 精确 量 。 它 同时 假定 抽样 过 程 本 身 是 随机 进行 的 一 一 换 句 话说 ， 
一 百 万 顾客 中 任何 一 个 都 有 相等 的 可 能 性 会 被 给 予 该 挑战 者 促销 ， 随 机 就 是 要 随机 。 下 面 举 
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出 的 这 些 例子 都 是 不 应 该 出 现 的 : 

“。 用 加 利 福 尼 亚 的 顾客 测试 挑战 者 ， 其 他 任何 人 测试 支持 者 ; 

* 使 用 最 低 的 5% 和 最 高 的 5% 有 价值 的 顾客 测试 挑战 者 ， 其 他 任何 人 测试 支持 者 ; 

“使 用 10% 新 近 客 户 测 试 挑战 者 ， 其 他 任何 人 测试 支持 者 ; 

* 使 用 有 电话 号 码 的 顾客 测试 电话 销售 活动 ， 其 他 任何 人 测试 直接 邮寄 活动 。 

所 有 这 些 都 是 将 总 体 分 解 为 群 组 时 会 出 现 的 偏离 方式 。 前 述 所 讨论 的 结果 都 假定 没有 这 
样 的 系统 偏离 〈bias)。 当 有 系统 偏离 时 ， 置 信 区 闻 的 公式 就 不 正确 。 

使 用 置信 区 间 的 公式 意味 着 在 确定 特定 顾客 是 否 收 到 支持 者 或 挑战 者 信息 时 没有 系统 偏 
离 。 比 如 ， 假 定 有 一 个 支持 者 模型 用 于 预测 顾客 对 支持 者 促销 做 出 响应 的 可 能 性 ， 一 旦 使 用 
了 该 模型 ， 那 么 挑战 者 样本 将 不 再 是 一 个 随机 样本 ， 它 将 由 支持 者 模型 的 剩余 顾客 组 成 。 这 
样 就 引入 了 另 一 种 形式 的 偏离 。 

另外 一 种 情况 是 ， 挑 战 者 模型 也 许 只 对 特定 市 场 或 特定 产品 的 顾客 可 用 ， 这 也 引入 了 其 
他 形式 的 仿 离 。 在 这 种 情况 下 ， 这 些 顾 客 应 当 与 那些 具有 相同 限制 条 件 的 、 收 到 该 支持 者 促 
销 的 顾客 集 进 行 比较 。 

另 一 种 形式 的 系统 偏离 可 能 来 自 响 应 的 方法 。 挑 战 者 也 许 只 通过 电话 接受 响应 ， 但 支持 
者 也 许 通 过 电话 或 者 网 络 接受 它们 。 在 些 情况 下 ， 挑 战 者 响应 也 许 会 因为 缺少 网 络 这 一 渠道 
而 变 得 低迷 ， 或 许 需要 对 人 站 电话 服务 生 进行 特别 训练 以 处 理 该 挑战 者 促销 。 在 某 些 特殊 情 
况 下 ， 这 可 能 意味 着 等 待 更 长 时 间 ， 又 会 造成 了 另 一 种 形式 的 系统 偏离 。 

置信 区 间 仅 仅 是 关于 统计 学 和 离 差 的 说 明 ， 它 不 代表 可 能 影响 结果 的 所 有 其 他 形式 的 系 
统 偏离 ， 这 些 形 式 的 偏离 对 结果 的 影响 常常 比 样本 方差 更 重要 。 下 一 节 会 讨论 在 市 场 营销 中 
建立 一 个 测试 和 对 照 实 验 ， 将 这 些 问 题 引 向 细致 深入 的 讨论 。 


5.3.6 实验 的 测试 群 组 和 对 照 群 组 大 小 


支持 者 - 挑战 者 模型 是 一 个 双向 测试 的 例子 ， 它 采用 一 个 新 方法 〈 挑 战 者 ) 与 通常 的 商 
业 活 动 〈 支 持 者 ) 相对 比 。 本 节 将 讨论 的 问题 是 ， 对 于 当前 目的 如 何 确保 测试 群 组 (test 
group) 和 对 照 群 组 〈ceontrol group) 足够 大 。 上 一 节 讨 论 了 如 何 确定 样本 响应 率 的 置信 区 
间 ， 这 里 我 们 将 这 一 逻辑 反 过 来 看 ， 不 是 从 群 组 的 大 小 开始 ， 而 是 从 实验 设计 的 观点 考虑 大 
小 。 这 需要 几 项 信息 : 

。 对 其 中 一 个 群 组 估计 响应 率 ， 称 它 为 如; 

。 在 响应 率 中 我 们 期 望 慎重 对 待 的 盖 异 (测试 的 敏锐 记 ) ， 称 它 为 di 

*。 置信 区 和 间 《比方 说 9S% ) 。 

这 提供 了 确定 测试 群 组 和 对 照 群 组 需要 的 样本 大 小 的 足够 信息 。 例 如 ， 假 定 正 常 的 商务 
有 5% 的 响应 率 ， 我 们 期 望 以 95% 的 置信 度 测量 0.2% 的 差异 ， 这 意味 着 如 果 测 试 群 组 的 响 
应 率 大 于 5.2% ， 那 么 该 实验 能 够 有 95% 的 置信 度 检测 到 这 个 差 值 。 

对 于 这 种 类 型 的 问题 ， 第 一 步 是 确定 SEDP 的 值 。 也 就 是 ， 如 果 我 们 愿意 在 9g% 的 置 
信和 度 下 接受 0.2% 的 差异 ， 那 么 对 应 的 标准 误差 是 多 少 ? 9$S% 的 置信 度 意 味 着 偏离 均值 1.96 
个 标准 差 ， 因 此 答案 就 是 将 该 差 值 除 以 1.96， 得 到 0.102% 。 一 般 地 说 ， 该 过 程 是 把 p 值 
(95% ) 转换 为 z 值 (这 可 以 用 Excel 函数 NORMSINV 完成 )， 然 后 将 期 望 的 置信 度 除 以 这 
个 值 。 
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下 一 步 是 将 这 些 值 代入 SEDP 公式 中 ， 为 此 ， 我 们 假设 测试 群 组 和 对 照 群 组 具有 相同 
大 小 : 


0.2% /2x* (1- 记 ) (1 二 六 一 q) 
1.96MV N+ ( 庆 +d) N 
将 刚才 描述 的 值 (六 为 5%，c 为 0.2%) 代 和 人 后 的 结果 是 : 


0.102% = /3 和 % 坟 国史 上 22 2 二 


N= 0.00102 天 -66875 

因此 ， 两 个 同样 拥有 92 561 个 样本 的 群 组 ， 可 以 用 于 以 95% 的 准确 度 测 量 响应 率 中 出 
现 的 0.2% 的 差 值 。 当 然 ， 这 并 不 是 保证 结果 将 最 少 差 0.2 个 百分点 ， 只 是 说 对 于 最 少 具有 
这 样 大 小 的 对 照 群 组 和 测试 群 组 ， 在 响应 率 中 若 出 现 0.2% 的 差异 应 该 该 能 够 测量 到 ， 并 有 显 
著 的 统计 学 差异 。 

测试 群 组 和 对 照 群 组 的 大 小 会 影响 到 如 何 解 释 结 果 ， 然 而 这 种 影响 可 以 在 测试 之 前 被 提 
前 确定 。 在 进行 测试 之 前 确定 测试 群 组 和 对 照 群 组 的 敏锐 程度 是 值得 的 ， 这 样 可 以 确保 该 测 
试 能 产生 有 用 的 结果 。 

提示 : 在 进行 一 个 市 场 测试 之 前 ， 应 该 通过 计算 响应 率 差 值 确定 测试 的 敏锐 程度 ， 

而 且 响应 率 差 值 计算 过 程 中 要 设置 较 高 的 置信 度 〈( 例 如 95% )。 


5.4 多 重 比较 


到 目前 为 止 ， 讨 论 只 用 了 一 种 对 比 的 例子 ， 例 如 两 个 总 统 候选 人 或 测试 群 组 和 对 照 群 组 
之 间 的 差 值 。 我 们 常常 同时 运行 多 个 测试 : 例如 ， 可 能 试验 三 种 不 同 的 挑战 者 信息 ， 以 决定 
其 中 之 一 是 否 比 通常 的 营销 信息 产生 更 好 的 结果 。 因 为 处 理 多 重 测试 确实 影响 基础 统计 数 
字 ， 所 以 理解 发 生 了 什么 是 重要 的 。 


5.4.1 多 重 比较 下 的 置信 和 层次 


设想 有 两 个 群 组 已 被 测试 ， 并 且 获 知 两 组 响应 差 值 有 95% 好 因 于 抽样 差异 之 外 的 因素 ， 
那么 一 个 合理 的 结论 是 在 两 个 群 组 之 间 确 实 存在 差异 。 在 一 个 精心 设计 的 测试 中 ， 最 可 能 的 
原因 有 可 能 是 信息 、 服 务 或 待遇 等 方面 的 差别 。 

Qccam 的 剃刀 学 说 告诉 我 们 ， 应 当 尽 可 能 采用 最 简单 的 解释 ， 不 要 添加 额外 的 东西 。 对 
于 响应 率 差异 的 最 简单 假说 是 “该 差异 并 不 重要 ”， 这 些 响 应 率 实际 上 近似 于 相同 的 数值 。 
如 果 该 差异 是 重要 的 ， 那 么 我 们 需要 寻找 导致 出 现 这 种 差异 的 理由 。 

现在 考虑 相同 的 情形 ， 但 不 同 的 是 获知 实际 上 有 20 组 正 被 测试 ， 展 示 的 只 是 其 中 的 一 
对 。 现 在 可 能 得 到 一 个 非常 不 同 的 结论 。 如 果 20 组 正 被 测试 ， 那 么 应 该 期 望 它们 中 有 一 个 
会 超过 95% 的 置信 界限 ， 出 现 的 原因 纯粹 应 归 因 于 可 能 性 ， 因 为 95% 意 味 着 19/20。 你 不 
能 再 推断 该 差 值 归 因 于 测试 参数 ; 相反 ， 很 可 能 该 差异 应 归 因 于 抽样 差异 ， 这 是 最 简单 的 
假说 。 

置信 层次 只 是 基于 单一 比较 。 当 有 多 重 比较 时 ， 前 提 条 件 就 不 正确 ， 因 此 前 面 所 计算 的 
置信 和 度 就 不 太 充 分 了 。 
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5.4.2 Bonferroni 修正 


幸运 的 是 ， 意 大 利 数学 家 Carlo Bonferroni 提出 的 简单 修正 法 可 以 校正 这 个 问题 。 我 们 
一 直 在 观察 置信 度 问 题 ， 即 前 面 所 说 的 某 些 值 有 95% 的 机 会 出 现在 A 和 呈 之 间 。 为 此 考虑 
以 下 几 种 情况 : 

*。 有 95% 的 概率 X 处 于 A 和 忆 之 间 ; 

*。 有 95% 的 概率 Y 处 于 C 和 万 之 间 。 

Bonferroni 希望 知道 这 两 者 都 为 真 的 概率 大 小 。 观察 它 的 另 一 种 方式 是 确定 一 个 或 者 另 
一 个 为 假 的 概率 ， 这 样 计算 更 容易 些 。 如 果 第 一 个 为 假 的 概率 是 5% ， 另 一 个 为 假 的 概率 也 
是 如 此 ， 则 两 者 任意 为 假 的 概率 是 它们 的 和 ( 即 10%) 减 去 二 者 同时 为 假 的 概率 
(0.25% )。 因 此 ， 两 个 命 古 同时 都 为 真 的 概率 约 为 90%。 

从 p 值 来 观察 ， 两 个 命题 合 起 来 的 p 值 (10% ) 近似 于 两 个 单独 命题 的 p 值 之 和 。 这 不 
是 偶然 的 ， 实 际 上 ， 把 任何 数目 命题 的 p 值 作 为 每 一 个 命题 的 p 值 之 和 来 计算 是 合理 的 。 如 
果 有 8 个 变量 具备 95% 的 置信 和 度 ， 那 么 在 任意 给 定时 间 ， 我 们 预期 8 个 变量 将 有 60% 的 可 
能 同时 出 现在 范围 内 (因为 8x*5% 为 40% 的 p 值 )。 

Bonferroni 反 过 来 应 用 了 这 一 观测 资料 。 如 果 有 8 个 测试 并 且 希 望 总 体 是 95% 的 置信 
度 ， 那么 p 值 的 限度 需 为 5% = 0.62$% 。 换 句 话 说， 每 一 观测 资料 需要 至 少 99.37$% 的 
置信 度 。Bonferroni 修正 就 是 按照 做 出 比较 的 数目 分 配 期 望 的 p 值 界限 ， 以 便 得 到 所 有 比较 
的 1-p 的 置信 度 。 


5.5 卡 方 检验 


比例 差 值 方法 对 于 估计 活动 有 效 性 及 其 他 相似 情形 是 一 个 强 有 力 的 方法 。 不 过 ， 还 有 另 
一 个 统计 测试 方法 可 以 使 用 ， 这 就 是 卡 方 检验 (chi-square test) ， 它 是 特别 为 多 重 测试 且 至 
少 有 两 个 离散 结果 (例如 响应 和 非 响应 ) 的 情形 设计 的 。 

卡 方 检验 的 吸引 力 在 于 它 非 常 适合 于 多 重 测试 群 组 和 多 重 结果 ， 只 要 不 同 的 群 组 相互 截 
然 不 同 。 实 际 上 这 几乎 是 使 用 这 一 测试 时 惟一 的 重要 规则 。 正 如 下 一 章 关 于 决策 树 所 描述 的 
那样 ， 卡 方 检验 是 决策 树 最 初 形式 之 一 的 基础 。 


5.5.1 期 望 值 


开始 卡 方 计算 需要 在 一 个 表格 中 排 布 数据 ， 如 表 5-5 所 示 。 这 是 一 个 简单 的 2x2 表格 ， 
代表 在 有 两 种 结果 〈 比 方 说 响应 或 非 响应 ) 的 测试 中 的 测试 群 组 和 对 照 群 组 。 表 中 也 显示 了 
每 一 列 和 行 的 合计 值 ， 亦 即 ， 响 应 者 和 非 响应 者 〈 每 列 ) 的 总 数 ， 以 及 在 测试 群 组 和 对 照 群 
组 〈 每 行 ) 中 的 总 数目 。 响 应 列 被 添加 上 去 仅 用 作 参 考 ， 并 不 是 计算 的 一 个 组 成 部 分 。 

如 果 在 这 些 群 组 之 间 ， 数 据 以 一 种 完全 没有 偏离 的 方式 被 分 裂 成 两 半 ， 人 情况 会 怎样 ? 就 
是 说 ， 如 果 在 表格 中 的 行列 之 间 真 的 没有 差别 ， 结 果 会 怎样 9 这 是 一 个 十 分 合理 的 问题 。 假 
定 响 应 者 和 非 响应 者 的 数量 相同 ， 并 假定 支持 者 和 挑战 者 群 组 的 大 小 相同 ， 我 们 可 以 计算 出 
期 望 值 。 更 确切 地 说 ， 我 们 能 够 计算 每 一 个 单元 格 中 的 期 望 值 ， 假 定 行 和 列 的 大 小 与 原始 数 
据 相 同 。 

计算 期 望 值 的 一 种 方法 是 : 通过 计算 下 列 四 个 量 中 每 个 量 的 值 ， 计 算 每 一 列 中 每 一 行 的 
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比例 ， 像 在 表 $-6 中 显示 的 那样 : 
“做 出 响应 的 人 的 比例 
“没有 响应 的 人 的 比例 
然后 这 些 比 例 被 乘 以 每 一 行 的 计数 以 获得 期 望 值 。 当 表 中 的 数据 有 更 多 列 或 更 多 行 时 ， 这 种 
计算 期 望 值 的 方法 就 可 以 进行 。 
表 5-5 ”为 进行 卡 方 检验 部 署 支持 者 一 挑战 者 数据 


响应 者 非 响 应 者 合 计 响应 率 
支持 者 43 200 856 800 900 000 4.80% 
挑战 者 5000 95 000 100 000 5.00% 
合计 48 200 951 800 1 000 000 4.82% 
表 5-6 ”对 表 5-5 中 的 数据 计算 期 望 值 和 预期 离 差 
实际 响应 期 望 响 应 离 差 
是 否 合计 是 符 是 否 
支持 者 43 200 856 800 900 000 43 380 ss6ez | -~180 180 
挑战 者 5 000 95 000 100 000 4820 95 180 180 -180 
合计 48 200 951 800 1 000 000 48 200 951 800 
4.82% 9S.18% 


期 望 值 是 很 有 意思 的 ， 因 为 它 显示 了 如 果 没 有 其 他 因素 影响 ， 数 据 会 如 何 分 解 。 请 注意 
期 望 值 的 单位 与 每 一 单元 格 的 单位 是 相同 的 ， 通 常 是 顾客 计数 ， 因 此 它 实 际 上 具有 一 定 的 意 
义 。 同 样 地 ， 期 望 值 之 和 与 原始 表格 中 的 所 有 单元 格 之 和 相同 。 该 表 也 包含 了 离 差 ， 即 观测 
值 和 期 望 值 之 间 的 差 值 。 在 这 种 情况 下 ， 离 关 都 具有 相同 的 值 ， 但 是 有 不 同 的 符号 ， 这 是 因 
为 原始 数据 有 两 行 和 两 列 。 在 本 章 的 稍 后 部 分 ， 有 一 个 使 用 了 更 大 表格 的 例子 ， 在 这 个 表格 
中 各 个 离 差 值 是 不 同 的 ， 可 是 ， 每 一 行 和 每 一 列 的 离 差 总 是 会 相互 抵消 ， 因 此 每 行 中 的 离 差 
之 和 总 是 为 0。 


5.5.2 卡 方 值 


离 差 是 观察 数值 的 好 工具 ， 但 它 并 不 提供 关于 离 差 是 预期 的 或 非 预期 的 信息 。 要 想 做 到 
这 点 需要 使 用 更 多 统计 学 工具 ， 这 就 是 由 英国 统计 学 家 Karl Pearson 在 1900 年 提出 的 卡 方 
分 布 。 

每 一 单元 格 的 卡 方 值 (chi-square) 可 以 由 下 式 简 单 计 算 ， 

ER -\/ 他 =expected (之 )) 


expected (Z) 
整个 表 的 卡 方 值 是 表 中 所 有 单元 格 的 卡 方 值 之 和 。 注 意 ， 卡 方 值 总 是 为 0 或 者 正 数 。 同 
样 ， 当 表 中 的 数值 与 期 望 值 (expected) 相符 时 ， 则 总 的 卡 方 值 为 0。 这 是 我 们 能 够 做 到 的 
最 好 程度 了 ， 当 偏离 期 望 值 的 离 差 增 大 时 ， 卡 方 值 也 随 之 增 大 。 
可 惜 的 是 ， 卡 方 值 不 遵循 正 态 分 布 。 这 实际 上 是 很 明显 的 ， 因 为 卡 方 值 总 是 正 数 ， 而 正 
态 分 布 是 对 称 的 。 值 得 庆幸 的 是 ， 卡 方 值 符合 另外 一 种 分 布 ， 这 种 分 布 同样 是 我 们 熟知 的 。 
可 是 ， 卡 方 分 布 不 仅 依赖 于 其 数值 本 身 ， 而 且 依 赖 于 表格 的 大 小 。 图 5-9 显示 的 是 几 个 卡 方 
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分 布 的 密度 函数 。 


卡 方 值 
图 5-9 卡 方 分 布依 赖 于 所 谓 的 自由 度 。 但 一 般 而 言 ， 它 起 始 较 低 ， 峰 值 超前 ， 逐 步 下 降 


卡 方 依赖 的 是 自由 度 。 跟 概率 论 和 统计 学 中 的 许多 概念 不 同 ， 自 由 度 很 容易 计算 ， 但 其 
意义 解释 相对 困难 一 些 。 某 个 表格 的 自由 度 等 于 行 数 和 列 数 各 自 减 一 后 相 乘 ， 在 前 一 例子 中 
的 2x2 表 格 有 1 个 自由 度 ; 一 个 5x7 的 表格 会 有 24 (4x6) 个 自由 度 。 后 面 的 “自由 度 ” 
部 分 对 这 一 问题 进行 更 详细 的 讨论 。 

警告; 在 任何 单元 格 中 ， 当 期 望 值 数字 小 于 5 (我 们 宁愿 推荐 一 个 稍微 高 一 点 的 界 

限 ) 的 时 候 ， 卡 方 检验 不 起 作用 。 

尽管 对 于 大 型 数据 挖 据 这 并 不 是 什么 问题 ， 但 当 分 析 小 型 测试 结果 时 它 可 能 就 成 为 问 
题 了 。 

使 用 卡 方 检验 的 步骤 是 : 

。 计算 期 望 值 ; 

*。 计算 偏离 期 望 值 的 离 差 ; 

“计算 卡 方 〈 离 差 的 平方 除 以 期 望 值 ); 

“对 表格 的 全 部 卡 方 值 求 和 ; 

“计算 观测 值 归 因 于 偶然 性 的 概率 (在 Excel 中 ， 可 以 使 用 CHIDIST 函数 )。 


自 由 度 

自由 度 〈dof) 所 指 的 意思 是 欲 描述 期 望 值 的 表格 需要 多 少 不 同 的 变量 。 这 是 对 表格 中 
数据 受 多 大 程度 约束 的 一 个 度量 。 

如 果 该 表格 有 行 c 列 ， 那 么 表 中 就 有 xc 个 单元 格 。 假 如 表格 中 没有 加 入 约束 条 件 ， 
这 就 是 需要 的 变量 数目 。 然 而 期 望 值 的 计算 还 是 要 加 入 一 些 约 束 条 件 的 。 尤 其 是 ， 对 于 原始 
表格 来 说 ， 每 一 行 数值 之 和 与 期 望 值 之 和 是 相同 的 ， 因 为 每 一 行 的 合计 是 固定 的 。 换 名 话 
说 ， 如 果 一 个 值 缺 失 了 ， 利 用 该 约束 条 件 ， 可 以 从 整 行 合计 中 减 去 该 行 其 余数 值 之 和 从 而 重 
新 计算 它 。 这 表明 该 自由 度 为 >xc-r。 对 于 列 也 存在 同样 的 情形 ， 这 样 就 会 产生 自由 度 为 
rXxc 一 r-c 的 估算 。 

然而 ， 另 外 有 一 个 约束 条 件 : 所 有 行 合 计 的 总 和 与 所 有 列 合计 的 总 和 必定 相同 ， 所 以 我 
们 实际 上 多 计算 了 一 个 约束 条 件 ， 因 此 该 自由 度 实际 为 >xc 一 r-c+1。 换 另 一 种 方式 ， 该 
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式 可 写作 (rr 一 二) 义 (c 一 1)。 


结果 可 能 是 ， 表 格 中 的 数值 分 布 是 由 于 随机 波动 而 不 是 一 些 外 部 因素 的 影响 造成 的 。 就 
像 Occam 的 剃刀 学 说 所 提出 的 ， 最 简单 的 解释 是 各 种 因素 根本 没有 造成 差别 ， 观 测 值 与 期 
望 值 之 间 的 差 值 完全 在 预期 范围 之 内 。 


5.5.3 卡 方 与 比例 差 值 的 比较 


卡 方 与 比例 差 值 可 应 用 于 同样 的 问题 。 尽 管 所 得 的 结果 不 完全 相同 ， 但 结果 足够 相似 ， 
已 令 人 满意 。 在 前 面 的 表 5-4 中 ， 我 们 使 用 比例 差 值 方法 ， 针 对 一 系列 支持 者 响应 率 ， 确 定 
出 支持 者 和 挑战 者 产生 相同 结果 的 可 能 性 。 在 表 $-7 中 ， 使 用 卡 方 计算 代 替 比 例 差 值 法 对 这 
个 问题 重新 进行 计算 ， 由 卡 方 检验 得 到 的 结果 与 从 比例 差 值得 到 的 结果 十 分 相似 一 一 这 是 考 
虑 这 两 种 方法 有 多 大 差别 时 一 个 值得 注意 的 结果 。 


表 5-7 ”对 于 表 5-4 中 比例 差 值 的 卡 方 计算 


比例 
差 值 


p 值 | p 值 


51.81 0.00%| 0.00% 
32.34 0.00%| 0.00% 
-73%| 4730 95270 j42 70 85$7430115.41 0.77 | 1.71 0.09 | 17.97 0.00%| 0.00% 


挑战 者 支持 者 挑 吉 者 期 望 值 | 支持 者 期 望 值 | 挑战 者 卡 方 | 支持 者 卡 方 | 卡 方 


二 


响应 无 响 而 响应 ”无 响应 


总 响 
应 率 
5 000 95 000|40 500 85S9 500 HH.55%| 4 SS0 95 4S0 |40 9S0 859 050144.5S1 2.12 
5 000 9 000141 400 es 4 640 95 360 |41 760 858 240 127.93 1.36 


s 000 95 000|42 300 8S7 700 


响应 ”无 响应 | 响应 ”无 响应 数值 


5 000 95 000|43 200 856 800 .82% 4820 9%5 180 |43 380 856 620| 6.72 0.34 | 0.75 0.04| 7.85 0.519%| 0.58% 
5 000 95 000|44 100 855 900 #.91%| 4910 95 090 |44 190 855810| 1.65 0.09 | 0.18 0.01 | 1.93 16.50%|16.83%% 
5 000 95 000|45 000 855 000 司 .00%| 5 000 95 000 |45 000 855 000 | 0.00 0.00 | 0.00 0.00 | 0.00 100.00%l100.00% 
5 000 95 000|45 900 854 100 避 .09%| 5 090 94 910 |45 810 854 190| 1.59 0.09 | 0.18 0.01 | 1.86 17.23%|16.91% 
S 000 95 000|46 800 853 200 . 94 820 |46 620 853 380 | 6.25 10. 7.33 0.68%| 0.60% 
5 000 95 000|47 700 8S2 300 5 . 94 730 147 430 852 570 |13.83 0. 。 5 16.23 0.01%| 0.00% 
5 000 95 008|48 600 851 400. 94 640 |48 240 851 760 124.18 工 . : 5 28.39 0.00%| 0.00% 
5 000 95 000|49 500 850 500 94 550 |49 050 850 950 |37.16 2. 43.66 0.00%| 0.00% 


5.6 示例 : 区 域 和 起 点 的 卡 方 


一 家 大 型 的 面向 消费 者 的 公司 曾 在 纽约 地 区 进行 过 支持 者 获取 方面 的 调查 活动 。 这 一 分 
析 的 目的 是 观察 他 们 的 获取 渠道 ， 试 图 增加 对 该 区 域内 不 同 部 分 的 了 解 。 针 对 这 一 分 析 目 
的 ， 令 人 感 兴趣 的 渠道 有 三 种 ， 

电话 销售 〈telemarketing): 通过 拨打 销售 电话 获取 的 客户 〈 注 意 : 这 一 数据 是 在 “全 
国 禁止 呼叫 列表 ”生效 前 收集 到 的 ); 

直接 邮寄 〈direct mail) : 对 直接 邮寄 有 响应 的 顾客 ; 

其 他 : 通过 其 他 方法 进来 的 顾客 。 

这 个 令 人 感 兴趣 的 区 域 由 纽约 州 的 八 个 和 郡 组 成 ， 其 中 有 五 个 是 纽约 市 的 行政 区 ， 另 外 两 
个 〈Nassau 郡 和 Suffolk 和 郡 ) 在 Long Island， 还 有 一 个 〈Westchester) 位 于 城市 的 正 北 边 。 
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这 一 数据 已 经 出 现在 先前 的 表 5$-1 中 ， 分 析 的 目的 是 确定 按 渠道 和 郡 县 的 起 始 细 目 分 类 是 否 
归 因 于 偶然 因素 ， 或 者 是 否 还 有 其 他 的 一 些 因素 在 起 作用 。 

这 一 问题 特别 适合 于 卡 方 计 算 ， 因 为 数据 可 以 被 排 布 到 行 和 列 中 ， 每 个 客户 只 会 在 一 个 
单元 格 中 被 计数 。 表 5-8 显示 了 表 中 每 一 组 合 的 离 差 、 期 望 值 和 卡 方 值 。 注 意 : 在 这 一 示例 
中 卡 方 值 常 常 很 大 ， 该 表 的 总 体 卡 方 得 分 是 7 200， 相 当 大 ; 归 因 于 偶然 性 的 总 体 得 分 概率 
基本 为 0， 即 是 说 ， 分 渠道 和 分 区 域 的 起 始 之 间 的 差别 不 是 由 于 样本 差异 引起 的 ， 还 有 其 他 
因素 在 起 作用 。 


表 5-8 对 都 县 和 渠道 进行 卡 方 计算 的 示例 


只) 泛 期 望 值 离 差 卡 方 
| 电话 销售 直接 邮寄 其 他 中 直接 邮寄 。 其 他 | 电话 销售 ”直接 邮寄 。 其 他 
BRONX 1850.2 523.1 4187.7| 1362 -110 -1252 | 1002.3 23.2 ”374.1 
KINGS 6257.9 1769.4 14163.7| 3515 -376 -3139| 1974.5 80.1 ”695.6 
NASSAU 4251.1 1202.0 9621.81 -1116 371 745 293.0 114.5 537.7 
NEW YORK | 11005.3 3111.7 24908.9| -3811 -245 4056 | 1319.9 19.2 ”660.5 
QUEENS 5245.2 1483.1 11871.7| 1021 -103 一 918 198.7 7.2 70.9 
RICHMOND 798.9 225.9 1808.2 -15 51 一 36 0.3 11.6 0.7 
SUFFOLK 3133.6 886.0 7092.4| 一 223 156 67 15.8 27.5 0.6 
WESTCHESTER| 3443.8 ”973.7 7794.5| -733 256 477 13S.9 67.4 ”29.1 


下 一 步 是 确定 娜 些 数值 偏 高 、 哪 些 数 值 偏 低 ， 以 及 具有 多 大 的 概率 。 它 吸引 我 们 使 用 该 
表 的 自由 度 ， 将 每 一 个 单元 格 中 的 卡 方 值 转换 成 一 个 概率 ， 该 表 是 8x3 的 ， 因 此 它 有 14 个 
自由 度 。 然 而 ， 这 并 不 是 要 做 的 恰当 的 事 ， 卡 方 的 结果 是 对 整个 表 格 的 ， 把 每 一 个 得 分 转化 
成 概率 不 会 产生 有 效 的 结果 ， 因 为 卡 方 得 分 不 可 累加 。 

另 一 种 可 选 的 方法 被 证 明 是 更 准确 的 ， 思 路 是 将 每 一 单元 格 与 其 他 的 任意 一 个 相 比较 ， 
结果 给 出 有 两 列 和 两 行 的 一 个 表格 ， 如 表 5-9 所 示 。 其 中 一 列 是 原始 单元 格 列 ， 另 一 列 是 其 
余 全 部 列 之 和 ; 一 行 是 原始 单元 格 的 行 ， 另 一 行 是 其 余 全 部 行 之 和 。 


表 5-9 对 Bronx 郡 和 电话 销售 的 卡 方 计算 


离 差 
电话 销售 非 电话 销售 
1361.8 一 1361.8 
-1361.8 1361.8 


卡 方 
电话 销售 非 电话 销售 
1 002.3 393.7 

54.3 21.3 


期 望 值 
电话 销售 非 电话 销售 
1850.2 4710.8 
34 135.8 86 913.2 


郡 县 


BRONX 


其 结果 是 一 组 Bronx 郡 与 电话 销售 组 合 的 卡 方 值 ， 绘 于 有 1 个 自由 度 的 表格 中 。 Bronx 
郡 一 电话 销售 得 分 本 身 是 对 于 一 个 2x2 表格 全 部 的 卡 方 值 的 一 个 良好 近似 (这 里 假定 原始 
单元 格 大 约 具 有 相同 大 小 )。 卡 方 值 的 计算 使 用 这 个 值 (1002.3) 和 上 个 自由 度 。 方 便 的 是 ， 
对 这 一 单元 格 的 卡 方 计算 与 该 单元 格 的 卡 方 原 始 计算 相同 〈 虽 然 其 余 的 数值 没有 任何 相 匹配 
的 计算 ) ， 这 样 就 不 必 进 行 额外 的 计算 。 

这 就 是 说 ， 每 一 种 变量 组 合 的 效果 评估 可 以 使 用 单元 格 中 的 卡 方 值 和 1 个 自由 度 得 到 。 
其 结果 是 包含 一 组 p 值 的 表格 ， 其 中 某 个 给 定 的 格 是 由 偶然 性 引起 的 ， 如 表 S-10 所 示 。 
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表 5-10 ”对 每 一 郡 县 和 渠道 组 合 估计 的 p 值 ， 没 有 对 比较 作 修正 


郡 县 电话 销售 直接 邮寄 其 ”他 
BRONX 0.00% 0.00% 0.00% 
KINGS 0.00% 0.00% 0.00% 
NASSAU 0.00% 0.00% 0.00% 
NEW YORK 0.00% 0.00% 0.00% 
QUEENS 0.00% 0.74% 0.00% 
RICHMOND 59.79% 0.07% 39.45% 
SUFFOLK 0.01% 0.00% 42.91% 
WESTCHESTFER 0.00% 0.00% 0.00% 


然而 ， 因 为 同时 进行 了 许多 比较 ， 还 需要 做 出 二 次 修正 ，Bonferroni 对 此 进行 了 调整 ， 
他 把 每 一 个 p 值 与 相 比 对 的 数目 〈 表 格 中 单元 格 的 数目 ) 相 乘 。 为 了 最 终 的 表达 目的 ， 需 要 
将 p 值 转换 为 它 的 相对 值 置 信 度 ， 通 过 乘 以 离 差 的 符号 以 得 到 一 个 有 正 负 之 分 的 置信 度 。 
5-10 显示 了 这 些 结果 。 


9 电话 销售 
口 直接 投递 


入 其 他 


六 人 于 
区 
妆 
受 
ee] 
下 
吓 


RICHMOND 
SUFFOLK 
WESTCHESTER 


图 5-10 ”这 个 图 表明 对 每 个 郡 县 和 地 区 组 合 的 有 符号 的 置信 和 度 值 。 接 近 100% 和 ~- 100% 的 
数值 占 优 势 ， 表 明 观 测 到 的 差异 在 统计 学 上 是 显著 的 


这 一 结果 很 令 人 关注 。 首 先 ， 几 乎 所 有 数值 都 接近 100% 或 - 100% ， 意 味 着 在 郡 县 之 
间 有 统计 学 上 的 显著 差异 。 事 实 上 ， 电 话 销售 〈 萎 形 ) 和 直接 邮寄 (方形 ) 总 是 处 于 相反 的 
两 端 ， 两 者 之 间 有 直接 的 相反 关系 。 在 三 个 郡 县 (Manhattan 、Nassau 和 Suffolk) 直接 邮寄 
高 而 电话 销售 低 。 在 这 些 郡 县 有 许多 富 人 区 ， 上 暗示 与 电话 销售 相 比较 ， 富 有 的 顾客 更 可 能 响 
应 直接 邮寄 ; 当然， 这 可 能 也 意味 着 直接 邮寄 活动 是 面向 这 些 区 域 的 ， 而 电话 销售 面向 其 他 
区 域 ， 于 是 这 种 地 理 分 布 差异 是 由 商业 运作 造成 的 。 要 确定 这 些 可 能 性 中 哪 种 是 正确 的 ， 我 
们 既 需 要 知道 哪些 人 被 联系 过 ， 也 需要 知道 哪些 人 做 出 了 响应 。 


免费 领取 更 多 资源 V: 3446034937 


106 用 $ 莫 


5.7 ”数据 挖 扬 和 统计 学 异同 


接 下 来 8 章 中 讨论 的 许多 数据 挖掘 技术 是 由 统计 学 家 发 明 的 ， 或 者 现在 已 被 集成 到 统计 
软件 中 ， 它 们 是 标准 统计 学 的 延伸 。 尽 管 数 据 挖掘 者 和 统计 学 家 使 用 相似 的 技术 来 解决 相似 
的 问题 ， 但 数据 挖掘 方法 在 几 个 方面 不 同 于 标准 统计 方法 : 

。 数 据 挖 气 者 倾向 于 忽略 原始 数据 中 的 测量 误差 ; 

。 数 据 挖 掘 者 假定 有 足够 多 的 数据 和 足够 强 的 处 理 能 力 ; 

。 数 据 挖掘 假定 时 时 处 处 具有 相关 性 ; 

。 在 商业 界 设计 试验 可 能 很 困难 ; 

。 数 据 已 被 截取 (truncated) 或 审查 (censored)。 

这 些 仅仅 是 方法 上 的 盖 异 ， 它 们 不 是 对 立 的 。 这 些 差异 从 某 种 程度 上 说 明 ， 数 据 挖 掘 者 
要 处 理 的 商业 问题 与 激励 统计 学 发 展 的 科学 问题 是 不 同 的 。 


5.7.1 原始 数据 中 没有 测量 误差 


统计 学 最 初 源 于 科学 上 对 量 的 测量 ， 诸 如 头骨 的 宽度 或 星星 的 亮度 。 这 些 测量 是 定量 
的 ， 且 精确 的 测量 值 依赖 于 诸如 测量 设备 的 类 型 和 环境 温度 等 因素 。 特 别 是 ， 两 人 同时 进行 
相同 的 测量 将 产生 稍微 不 同 的 结果 ， 该 结果 可 能 相差 5% 或 者 0.05% ， 但 确实 有 差别 。 传 统 
上 ， 统 计 学 把 观测 值 看 做 落 人 置信 区 间 。 

另 一 方面 ， 顾 客 去 年 1 月 份 付款 的 数量 非常 好 理解 一 一 可 以 精确 到 最 后 一 分 钱 。 顾 客 的 
定义 也 许 有 一 点 模糊 ， 一 月 份 的 定义 也 许 是 模糊 的 〈 考 虑 5-4-4 财务 周期 )， 但 是 付款 数量 
是 精确 的 ， 没 有 测量 误差 。 

商业 数据 是 有 误差 来 源 的 。 特 别 要 关注 的 是 操作 系统 误差 ， 在 所 收集 的 数据 中 它 能 导致 
系统 偏差 。 例 如 ， 时 钟 相位 差 也 许 意味 着 ， 本 应 按 某 一 个 序列 发 生 的 两 个 事件 似乎 有 可 能 按 
另 一 个 顺序 发 生 ; 一 个 数据 记录 可 能 把 星期 二 标记 为 更 新 日 期 ， 但 它 实 际 更 新 的 时 间 是 在 星 
期 一 ， 因 为 该 更 新 过 程 在 午夜 刚 过 就 进行 。 这 种 形式 的 偏差 是 系统 的 ， 潜 在 地 代表 可 能 被 数 
据 挖掘 算法 拾取 的 虚假 模式 。 

在 商业 数据 和 科学 数据 之 间 一 个 较 大 的 区 别 是 后 者 有 许多 连续 值 ， 而 前 者 有 许多 离散 
值 。 甚 至 金钱 的 数量 也 是 离散 的 〈 两 个 值 可 能 只 差 几 美 分 或 某 一 类 似 量 ) ， 即 便 是 该 数值 能 
用 实数 表示 。 


5.7.2 ”有 大 量 的 数据 


传统 上 ， 统 计 学 被 应 用 于 短小 的 数据 集 〈 至 多 几 王 行 )， 通 常 只 有 较 少 的 列 〈 少 于 12 
个 )， 其 目标 是 从 数据 中 压榨 出 尽 可 能 多 的 信息 。 在 数据 收集 代价 昂贵 或 费劲 的 领域 一 一 诸 
如 市 场 调查 、 汽 车 碰撞 试验 或 火星 土壤 化 学 成 分 试验 中 ， 这 仍然 是 重要 的 。 

相反 ， 商 业 数 据 是 非常 庞大 的 。 耿 待 解决 的 问题 是 了 解 正在 发 生 的 任何 事情 ， 而 不 是 任 
何 可 能 的 事情 。 李 运 的 是 ， 目 前 有 足够 的 计算 能 力 可 处 理 如 此 巨大 数量 的 数据 。 

抽样 理论 是 统计 学 的 一 个 重要 部 分 。 这 部 分 内 容 可 用 于 解释 数据 子 集 (样本 ) 的 结果 与 
整体 的 关系 。 当 计划 进行 一 次 民意 测验 时 这 是 很 重要 的 ， 因 为 不 可 能 询问 每 个 人 问题 ; 相反 
地 ， 调 查 者 是 通过 询问 很 小 的 样本 来 导出 总 体 的 看 法 。 然 而 ， 当 全 部 数据 可 用 时 ， 这 点 就 很 
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不 重要 了 。 通 常情 况 下 ， 最 好 是 使 用 所 有 可 用 的 数据 ， 而 不 是 它 的 一 个 小 子 集 。 

有 几 种 情况 并 非 一 定 如 此 ， 一 种 可 能 是 有 太 多 的 数据 ;: 无 需 在 上 千 万 的 客户 基础 上 建 
模 ， 而 代 之 以 在 几 十 万 客户 数据 上 建 模 一 一 至 少 可 以 知道 如 何 建 立 更 好 的 模型 。 另 一 种 可 能 
的 情况 是 得 到 一 个 没有 代表 性 的 样本 : 例如 ， 这 样 的 样本 可 能 有 相同 数量 的 流失 者 和 非 流 失 
者 ,尽管 原 始 数据 有 不 同 的 比例 。 然 而 ， 通 常 使 用 更 多 数据 比 样本 裁减 及 使 用 更 少数 据 要 
好 ， 除 非 有 抽样 裁减 的 好 理由 。 


5.7.3 时 间 从 属性 随处 出 现 


几乎 数据 挖掘 中 的 所 有 数据 都 具有 与 之 相关 联 的 时 间 从 属性 。 顾 客 对 营销 工作 的 反应 随 
时 间 改变 ， 潜 在 顾客 对 竞争 性 服务 的 反应 随时 间 改 变 ， 比 较 本 年 度 与 上 一 年 市 场 营销 活动 的 
效果 ， 很 少 会 产生 正好 相同 的 结果 。 当 然 ， 我 们 也 不 期 待 出 现 相 同 的 结果 。 

另 一 方面 ,我 们 确实 希望 科学 试验 产生 相似 的 结果 ， 不 管 该 试验 何 时 进行 。 科 学 定律 被 
认为 是 永恒 的 ， 它 们 不 随时 间 改 变 。 与 之 形成 对 照 的 是 ， 商 业 环 境 每 天 都 在 变化 。 统 计 学 经 
常 把 重复 的 观测 视 为 独立 的 观测 ， 也 就 是 说 ， 一 个 观测 与 另 一 个 并 不 相似 。 相 反 ， 数 据 挖掘 
必须 经 常 考虑 数据 的 时 间 成 分 。 


5.7.4 试验 是 艰难 的 


数据 挖掘 不 得 不 在 现 有 商业 实践 的 约束 中 进行 研究 。 这 使 得 编排 试验 变 得 困难 ， 有 以 下 
几 个 主要 原因 : 

“商业 界 也 许 不 愿意 资助 为 了 长 期 获 益 而 减少 短期 收益 的 努力 ; 

。 商业 活动 过 程 可 能 妨碍 精心 设计 的 试验 方法 的 实施 ; 

“影响 试验 结果 的 可 能 因素 也 许 并 不 明显 ; 

“时限 扮 演 关 键 角色 并 可 能 致使 结果 没有 用 处 。 

上 述 这 些 因 素 中 ， 前 两 项 是 最 困难 的 。 第 一 条 只 是 说 试验 没有 得 到 实施 ， 或 者 是 实施 
得 如 此 拙劣 以 至 于 结果 是 无 用 的 。 第 二 条 造成 的 问题 是 ， 一 个 看 上 去 设计 精良 的 试验 可 能 没 
有 正确 执行 ， 在 计划 一 个 试验 时 总 会 有 些 霸 毕 ， 有 时 候 这 些 蚜 绊 会 使 读 懂 结果 变 得 不 太 
可 能 。 


5.7.5 数据 审查 和 截取 


用 于 数据 挖掘 的 数据 经 常 是 不 完善 的 ， 通 常会 以 两 种 特殊 方式 出 现 。 因 为 被 测量 的 任何 
东西 是 不 完整 的 ， 从 而 导致 被 审查 的 数值 不 完善 。 一 个 例子 是 顾客 保有 期 ; 对 于 活跃 的 顾 
客 ， 我 们 知道 其 保有 期 肯定 大 于 当前 的 保有 期 ， 然 而 我 们 不 知道 哪些 顾客 明天 将 停止 ， 哪 些 
申 客 将 自 现在 起 10 年 后 停止 。 实 际 的 保有 期 总 是 大 于 观测 值 ， 并 且 直 到 该 顾客 实际 停止 于 
将 来 的 某 一 特定 未 知 点 才能 知晓 。 

图 5-11 显示 了 另 一 个 具有 同样 结果 的 情形 。 这 一 曲线 显示 了 某 有 零售 商 关 于 一 种 产品 的 
销售 和 库存 。 销 售 总 是 小 于 或 等 于 库存 。 可 是 ， 在 标注 了 X 的 日 子 里 ， 库 存 卖 完了 ， 那 么 
这 些 天 的 潜在 销售 会 是 多 少 ? 潜在 销售 大 于 或 等 于 观测 的 销售 一 这 是 被 审查 数据 存在 问题 
的 另 一 个 例子 。 
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库存 单位 数 


时 间 


图 5-11 产品 销售 和 库存 的 时 间 序 列表 明 被 审查 数据 存在 的 问题 


被 截取 的 数据 在 样本 偏 置 方面 造成 了 另 一 个 问题 : 被 截取 的 数据 是 不 包含 在 数据 库 中 
的 ， 经 常 是 因为 它 太 旧 了 。 例 如 ， 当 A 公司 收购 B 公 司 时 ， 它 们 的 系统 被 合并 。 来 自己 公 
司 的 活路 顾客 常常 被 直接 搬 进 A 公司 的 数据 仓库 中 。 就 是 说 ， 所 有 在 给 定 日 期 活跃 的 顾客 
被 挪 走 ， 前 一 天 刚 停止 的 顾客 没有 被 挪 走 。 这 是 一 个 左 截取 的 例子 ， 它 在 整个 公司 数据 库 会 
随处 可 见 ， 通常 并 没有 警告 标识 (除非 文 件 非 常 好 地 表述 了 数据 仓库 中 哪些 存在 及 哪些 不 存 
在 )。 在 考察 客户 关系 什么 时 间 开 始 时 ， 这 可 能 导致 混乱 一 一 发 现在 合并 前 5 年 开始 的 所 有 
客户 都 神秘 地 活跃 了 至 少 5 年 ， 当 然 这 并 非 由 于 一 个 神奇 的 获取 计划 造成 地 ， 而 是 因为 先前 
停止 的 所 有 那些 人 都 被 排除 在 外 了 。 


5.8 小 结 


本 章 讨论 了 对 于 分 析 数 据 很 有 用 的 一 些 基本 的 统计 学 方法 。 在 考察 数据 的 时 候 ， 观 察 直 
方 图 和 累积 直方 图 ， 看 哪些 值 最 普通 是 非常 有 用 的 。 尽 管 如 此 ， 更 重要 的 是 随时 间 考 察 
数值 。 

统计 学 关注 的 重要 问题 之 一 是 观测 值 是 否 是 预期 的 。 对 于 这 点 ， 偏 离 平 均值 的 标准 差 数 
目 (z 得 分 ) 能 够 用 于 计算 该 值 归 因 于 偶然 性 的 概率 (p 值 )。 高 的 p 值 意味 着 原 假设 为 真 ， 
换 名 话说， 没有 出 现任 何 有 意义 的 事 ， 低 的 p 值 暗示 其 他 因素 可 能 影响 结果 。 可 以 依靠 正 态 
分 布 把 z 得 分 转换 为 p 值 。 

商业 问题 经 常 需 要 分 析 表 示 为 比例 的 数据 。 幸 运 的 是 ， 这 些 工 作 与 正 态 分 布 很 相似 。 比 
例 标准 误差 公式 (SEP) 使 得 在 诸如 响应 率 这 样 的 比例 上 可 以 定义 置信 区 间 。 比 例 差 值 的 标 
准 误 差 (SEDP) 使 我 们 可 以 确定 两 个 值 是 否 相似 ， 可 以 通过 定义 这 两 个 值 之 间 差 值 的 置信 
区 间 来 完成 。 

当 设 计 营 销 试验 时 ，SEP 和 SEDP 都 能 够 用 于 样本 集 大 小 测试 和 对 照 群 组 选择 。 尤 其 
是 ， 这 些 群 组 应 当 足 够 大 ， 以 便 可 以 测量 具有 足够 高 置信 和 度 的 响应 率 差 值 。 对 具有 多 于 两 个 
群 组 的 测试 ， 在 设置 群 组 大 小 时 需要 考虑 某 种 调整 ， 如 Bonferroni 的 修正 。 

卡 方 检 验 是 另 一 个 常常 很 有 用 的 统计 方法 。 这 一 方法 直接 对 排 布 成 行 和 列 的 数据 计算 估 
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计 值 。 基 于 这 些 估 计 值 ， 卡 方 检验 能 够 确定 该 结果 是 可 能 的 还 是 不 可 能 的 。 如 同 本 章 中 的 示 
例 所 示 ， 卡 方 检验 和 SEDP 方法 得 出 相似 的 结果 。 

统计 学 家 和 数据 挖掘 者 解答 相似 的 问题 。 但 是 因为 历史 的 差异 和 所 面 对 问 题 本 质 的 差 
别 ， 在 处 理 问题 的 方法 上 有 一 些 差 异 。 数 据 挖掘 者 通常 面 对 许 许多 多 具有 很 少 测量 误差 的 数 
据 ， 这 些 数据 随时 间 改 变 ， 且 数值 有 时 不 完善 。 数 据 控 握 者 必须 对 商业 过 程 中 引入 数 据 的 偏 
差 保持 特别 警觉 。 

接 下 来 的 8 章 将 研究 建 模 和 理解 数据 所 需 现代 技术 的 更 多 细节 ， 其 中 的 许多 技术 已 被 统 
计 学 家 采用 ， 并 以 此 为 基础 在 这 一 领域 应 用 了 百年 以 上 的 时 间 。 
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第 6 章 决 策 树 


决策 树 对 于 分 类 和 预测 是 强 有 力 的 常用 工具 。 基 于 树 的 方法 之 所 以 有 吸引 力 ， 很 大 程度 
上 是 因为 决策 树 代表 着 规则 。 规 则 可 以 很 容易 地 用 英语 表达 ， 以 便 我 们 能 够 理解 ， 也 能 在 数 
据 存 取 语言 中 表示 ， 比 如 用 SQL 在 特定 的 类 别 中 检索 记录 。 决 策 树 对 于 探测 数据 也 很 有 用 ， 
可 以 了 解 从 大 量 的 候选 输入 变量 到 一 个 目标 变量 的 关系 。 决 策 树 把 数据 探查 (data explo- 
ration) 和 建 模 结合 在 一 起 ， 即 使 建立 最 终 模型 时 使 用 一 些 其 他 技术 ， 它 也 是 建 模 过 程 中 强 
有 力 的 第 一 个 步骤 。 

在 模型 准确 度 (accuracy) 和 模型 透明 度 之 间 时 常 要 做 些 权 衡 。 在 某 些 应 用 中 ， 分 类 或 
预测 的 准确 度 是 惟一 重要 的 事情 ， 如 果 一 个 直接 邮寄 公司 得 到 一 个 模型 ， 能 够 准确 地 预测 潜 
在 顾客 池 中 哪些 成 员 最 可 能 响应 某 个 诱导 ， 该 公司 也 许 不 会 关心 该 模型 如 何 工作 或 为 什么 起 
作用 。 在 另外 一 些 情形 下 ， 阑 述 决策 动机 的 能 力 则 是 至 关 重 要 的 。 例 如 ， 在 保险 业 中 ,一 些 
法 律 禁 止 基于 某 些 变量 的 歧视 。 保 险 公 司 也 许 会 发 现 自身 处 在 这 样 的 位 置 ， 他 们 不 得 不 向 法 
庭 论证 在 允许 或 拒绝 某 个 保险 项 目 时 没有 使 用 非法 的 歧视 性 惯例 。 类 似 地 ， 不 管 是 信贷 员 还 
是 贷款 申请 者 ， 听 到 贷款 申请 是 基于 计算 机 产生 的 规则 被 拒绝 的 〈 例 如 ， 收 入 低 于 某 一 限额 
值 并 且 现 有 周转 账户 超出 另外 某 一 限额 ) ， 比 听 到 该 决定 是 由 对 其 决定 不 提供 任何 解释 的 神 
经 网 络 做 出 的 更 可 以 接受 。 

本 章 首先 通过 实例 介绍 什么 是 决策 树 、 它 们 如 何 工作 以 及 如 何 用 于 分 类 和 预测 问题 ， 然 
后 描述 用 于 建立 决策 树 的 核心 算法 并 讨论 该 核心 算法 的 一 些 最 流行 的 变 体 。 作 者 精心 选取 的 
实例 演示 了 决策 树 的 效用 和 一 般 适 用 范围 ， 说 明 实 践 中 必须 予以 考虑 的 事项 。 


6.1 什么 是 决策 树 


决策 树 是 一 种 结构 。 通 过 应 用 简单 的 决策 规则 ， 利 用 这 种 结构 可 以 将 大 型 记录 集 分 割 为 
相互 连接 的 小 记录 集 。 通 过 每 一 次 连续 分 割 ， 结 果 集 中 的 成 员 彼 此 变 得 越 来 越 相 似 。18 世 
纪 30 年 代 ， 瑞 典 植物 学 家 Carl Linnaeus 发 明了 一 种 常见 的 生物 分 类 方法 ， 将 生物 划分 为 界 、 
门 、 纲 、 目 、 科 、 属 、 种 ， 这 就 是 一 个 很 好 的 例子 。 在 动物 界 中 ， 某 一 特定 动物 如 果 生 有 肴 
揽 就 被 划分 到 养 椎 动物 门 中 ; 附加 的 特征 用 于 将 着 椎 动物 进一步 细 分 为 鸟 、 哺 乳 动 物 、 疏 行 
动物 纲 等 ; 这 些 纲 再 进一步 细 分 ， 直 到 分 类 学 的 最 底层 ， 同 一 个 种 的 成 员 不 仅 在 形态 学 上 相 
似 ， 而 且 能 够 繁殖 产生 后 代 。 

决策 树 模型 包含 一 系列 规则 ， 按 照 某 个 相关 的 特定 目标 变量 ， 将 大 量 包 含 不 同 种 类 的 总 
体 分 割 为 小 的 、 更 相似 的 群 组 。 决 策 树 可 以 像 Linnaeus 以 及 后 来 的 一 代 代 分 类 学 者 所 做 的 
那样 ， 通 过 手工 方法 辛苦 地 建立 起 来 ， 也 可 以 通过 将 某 种 决策 树 算 法 应 用 于 包含 预 分 类 数据 
的 模型 组 而 自动 产生 ， 本 章 最 关注 的 是 自动 产生 决策 树 的 算法 。 目 标 变量 通常 是 分 类 属性 ， 
决策 树 模型 可 用 于 计算 给 定 记录 归属 于 某 一 个 类 别 的 概率 ， 也 可 通过 将 记录 分 配 到 最 可 能 的 
类 来 给 记录 分 类 。 当 然 ， 决 策 树 也 能 够 用 于 估计 连续 变量 的 值 ， 尽 管 其 他 技术 更 适合 于 这 一 
任务 。 


iask 
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6.1.1 分 类 


任何 熟 释 “二 十 问题 ”游戏 的 人 将 毫 不 费力 地 理解 决策 树 是 如 何 分 类 记录 的 。 在 该 游戏 
中 ， 一 个 玩家 想 出 一 个 所 有 参与 者 可 能 知道 或 认识 的 特定 的 地 点 、 人 物 或 者 事物 ， 但 是 该 玩 
家 不 给 出 关于 其 特性 的 任何 提示 ， 其 他 玩家 通过 一 连 串 “是 或 否 ”的 提问 尝试 发 现 它 是 什 
么 。 从 “ 它 是 否 比 面包 盒 大 ?” 这 样 的 问题 一 直 猜 到 “人 金门 桥 ” ， 一 个 好 玩家 自始至终 很 少 用 
满 “20 个 问题 ”这 一 配额 。 

决策 树 代 表 了 这 样 一 系列 连续 的 问题 。 正 像 游 戏 中 那样 ， 对 第 一 个 问题 的 回答 决定 了 后 
续 的 提问 ， 前 面 的 问题 先 创 建 具 有 许多 成 员 的 宽泛 范畴 ， 后 续 问 题 将 宽泛 范畴 分 割 为 越 来 越 
小 的 集合 。 如 果 精 心 挑 选 所 问 的 问题 ， 那 么 也 许 只 需 几 个 问题 就 足以 正确 分 类 引入 的 记录 。 

“二 十 问题 ”游戏 说 明了 用 树 来 对 记录 追加 分 数 或 分 类 的 过 程 。 记 录 在 根 结 点 处 进入 树 ， 
根 结 点 应 用 一 个 测试 来 确定 该 记录 接 下 来 将 遇 到 哪个 子 结 点 。 尽 管 有 不 同 算法 可 用 于 选择 初 
始 测试 ， 但 目标 总 是 相同 的 : 选择 在 目标 分 类 中 最 能 判别 的 测试 ; 这 一 过 程 反复 进行 ， 直 到 
记录 到 达 叶 结 点 为 止 。 所 有 终结 于 该 树 某 一 个 给 定 叶 的 记录 在 分 类 上 的 路 线 是 相同 的 ， 从 根 
到 每 个 叶 只 有 惟一 的 路 径 ， 那 个 路 径 就 是 一 个 用 于 分 类 记录 规则 的 表达 式 。 

不 同 的 叶 可 能 产生 相同 的 分 类 ， 尽 管 每 个 叶 给 出 的 分 类 可 能 依据 不 同 的 理由 。 例 如 ,在 
一 个 按照 颜色 分 类 水 果 和 蔬菜 的 树 中 ， 表 示 茎 果 、 西 红 柿 和 樱桃 的 那个 叶 都 可 以 预计 为 “ 红 
色 ”， 但 由 于 可 能 出 现 绿 苹果 、 黄 西红柿 和 黑 樱桃 ， 所 以 会 出 现 不 同 程度 的 置信 度 。 

如 果 寄 送 一 个 新 的 目录 ， 图 6-1 中 的 决策 树 把 潜在 的 目录 收 件 人 分 类 为 可 能 发 来 订单 
(1) 或 未 必 可 能 发 来 订单 (0)。 

图 6-1 中 的 树 是 利用 SAS 企业 挖掘 树 查看 器 (SAS Enterprise Miner Tree Viewer) 工具 
创建 的 。 该 图 是 依照 数据 挖掘 中 的 惯例 绘制 一 一 根 在 顶部 、 叶 在 底部 ， 这 也 许 暗 示 数 据 控 所 
者 应 当 更 多 地 出 去 看 看 真 树 是 如 何 生 长 的 。 每 个 结 点 在 右上 角 标 注 有 结 点 号 ， 并 在 中 间 标 注 
预测 的 类 别 ;， 拆 分 每 一 结 点 的 决策 规则 印 在 连接 每 一 结 点 及 其 子 结 点 的 连 线 上 ; 在 根 结 点 上 
按 “ 生 存 期 订单 ” 拆 分 ， 左 分 支 代表 有 6 个 或 更 少 订 单 的 顾客 ， 右 分 支 代表 有 7 个 或 更 多 订 
单 的 顾客 。 

任何 到 达 19、14、16、17 或 18 叶 结 点 的 记录 被 分 类 为 可 能 响应 ， 因 为 在 这 种 情况 下 预 
测 类 别 为 1。 到达 这 些 叶 结 点 的 路 径 描述 了 树 中 的 规则 ， 比 如 叶 19 的 规则 是 ， 如 果 该 顾客 
已 作 了 超 这 6.5 次 的 订单 且 自 上 次 订购 以 来 时 间 少 于 765 天 ， 那 么 该 顾客 可 能 响应 。 

细心 的 读者 也 许 注 意 到 : 决策 树 中 的 一 些 拆 分 看 起 来 没有 差别 ， 例 如 ， 结 点 17 和 18 是 
按 食品 类 别 中 包含 物品 所 做 出 的 订单 数目 区 分 的 ， 但 两 个 结 点 都 标记 为 响应 者 。 这 是 因为 尽 
管 在 结 点 18 中 响应 的 概率 要 高 于 结 点 17， 但 它们 都 处 于 把 记录 分 类 为 响应 者 的 设 定 闪 值 之 
上 。 作 为 一 个 分 类 器 ， 该 模型 只 有 两 种 输出 ,“1” 和 “0”。 这 种 二 元 分 类 丢弃 了 某 些 有 用 的 
信息 ， 而 把 我 们 引入 了 下 一 个 主题 : 使 用 决策 树 来 产生 得 分 和 概率 。 


6.1.2 评分 


图 6-2 与 图 6-1 的 树 相同 ， 但 使 用 了 不 同 的 树 查看 器 ， 并 且 改 进 了 设 定 值 ， 该 树 现在 带 
有 了 额外 注解 一 一 即 每 一 个 结 点 在 类 1 中 记录 的 百分比 。 
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厨房 用 品 总 数 $980.3 


1 0 二 19:325 “ “ 4325 


6-1 一 个 二 元 决策 树 把 目录 收 件 人 分 类 为 可 能 或 未 必 可 能 发 出 订单 


现在 已 经 很 清楚 ， 该 树 描述 了 一 个 包含 半数 响应 者 和 半数 非 响应 者 的 数据 集 ， 因 为 根 结 
点 有 50% 的 比例 。 如 同 在 第 3 章 中 描述 的 ， 这 是 一 个 典型 的 具有 二 元 目标 变量 的 响应 模型 
训练 集 。 具 有 超过 50% 响 应 者 的 任何 结 点 在 图 6-1 中 被 标记 为 “1”， 包 括 结 点 17 和 18。 图 
6-2 阐明 了 这 些 结 点 之 间 的 区 别 ， 在 结 点 17，5$2.8% 的 记录 代表 响应 者 ， 而 在 结 点 18， 这 一 
比例 是 66.9% 。 很 明显 ， 在 结 点 18 中 的 一 条 记录 比 在 结 点 17 中 的 一 条 记录 更 可 能 代表 一 
个 响应 者 。 在 期 望 的 分 类 中 ， 记 录 的 比例 可 以 当 作 一 个 得 分 使 用 ， 它 常常 比 只 进行 分 类 更 有 
用 。 对 于 二 元 结果 ， 分 类 仅仅 把 记录 拆 分 为 两 个 组 ， 而 得 分 则 可 以 对 记录 进行 排序 ， 从 最 可 
能 到 最 不 可 能 成 为 期 望 的 分 类 成 员 。 

对 于 许多 应 用 而 言 ， 需 要 做 的 就 是 给 出 一 个 得 分 ， 按 照 得 分 排序 列表 ， 这 足以 选 出 用 于 
投递 的 最 佳 N 百分比 ， 并 且 在 列表 的 各 种 深度 上 计算 提升 度 (lift)。 然 而 对 于 另外 的 一 些 
应 用 ， 比 如 要 知道 “A 比 也 是 否 更 可 能 响应 ”， 它 就 不 够 充分 了 ， 因 为 我 们 想 知 道 来 自 A 的 
响应 实际 可 能 性 有 多 少 。 假 定 一 个 响应 的 先前 概率 是 已 知 的 ， 通 过 抽样 数据 建立 的 树 结 构 产 
生 的 得 分 可 以 用 于 计算 响应 概率 。 换 句 话 说， 该 模型 能 够 适用 于 具有 反映 真实 总 体 响应 分 布 
的 预 分 类 数据 。 这 个 被 称 为 逆向 适应 (backfitting) 的 方法 可 以 用 来 创建 得 分 ， 即 用 该 树叶 
结 点 处 的 分 类 比例 来 代表 从 相似 总 体 中 抽取 的 一 条 记录 属于 该 类 的 概率 。 这 些 分 类 以 及 与 此 
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相关 的 问题 ， 在 第 3 章 中 已 作 过 详细 讨论 。 
1 50.09% 
结 点 1 
生存 期 订单 
[<5.5] [5.5| 
。 1 67.59 
总 数 100 误 总 数 100.09% 
结 点 2 结 点 3 
过 去 24 个 月 的 订单 额 过 去 以 来 的 天 数 
k754 上 754 
1 37.99% 1 52.096 1 73.29%]| 45.3% 
七 总 总 数 100.09%|| 总 数 100.09% 
让 站 和 0 | 19|i 纤 点 20 
[1 Lo [<19.325 [>19.325 | 
1 6.79% 1 35.896 1 50.096 1 77.196 
总 数 100.0% 总 数 100.0% 总 100.0% 操 数 100.09% 
结 点 9 结 点 10 结 点 13 结 点 14 
生存 期 订单 
Lo 种 
34.0396 44.8%][ 38.39% 1 55.59 
攻 数 100.09% 态 数 100.09%|| 总 数 。 100.0% 总 数 100.0% 
结 点 1]1ji 结 点 12ji 结 点 15 结 点 16 
[食品 | 
1 52.8%1f1 66.99%6 
总 数 100.09% 上 | 台数 100.0% 
结 点 17j| 结 点 18 
图 6-2 在 决策 树 的 每 个 结 点 标注 记录 在 类 1 中 的 比例 ， 显 示 该 分 类 的 概率 
6.1.3 估计 


假设 重要 的 商业 问题 不 是 “ 谁 将 响应 ”， 而 是 “该 顾客 下 一 个 订单 的 大 小 是 多 少 ”， 决 策 
树 同样 能 够 回答 这 个 问题 。 假 定 订单 数量 是 预 分 类 模型 集 的 可 用 变量 之 一 ， 在 每 一 叶 结 点 的 
平均 订单 大 小 可 以 作为 满足 该 叶 结 点 条 件 的 任何 未 分 类 记录 的 估计 订单 大 小 。 它 甚至 有 可 能 
使 用 数值 型 目标 变量 建立 树 ， 这 样 的 树 被 称 为 回归 树 (regression tree)。 被 选中 的 树 的 每 一 
次 拆 分 ， 不 是 由 于 增加 了 分 类 变量 的 纯度 ， 而 是 因为 降低 了 每 一 子 结 点 目标 变量 数值 的 方差 
(vatriance)。 

事实 上 ， 树 能 够 用 于 (有 时 确定 就 是 ) 估计 连续 值 ， 但 这 并 不 是 一 个 好 主意 。 决 策 树 估 
算 器 能 产生 和 树 中 叶子 一 样 多 的 离散 值 。 要 估计 连续 变量 ， 使 用 连续 函数 可 能 更 好 ， 回 归 模 
型 和 神经 网 络 模型 通常 更 适用 于 估计 。 


6.1.4 树 以 多 种 形态 生长 
在 图 6-1 中 的 树 是 一 个 非 均匀 深度 的 二 元 树 ， 就 是 说 ， 每 一 个 非 叶 结 点 有 两 个 子 结 点 ， 


ee 和 和 
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并 且 叶 结 点 与 根 结 点 距离 并 不 都 相同 。 在 这 种 情况 下 ， 每 一 结 点 代表 一 个 是 或 否 的 问题 ， 其 
答案 决定 了 一 条 记录 向 该 树 下 一 层 进发 的 两 条 路 径 。 因 为 任何 多 路 拆 分 都 能 够 表示 为 一 连 串 
的 二 元 拆 分 ， 树 实际 上 没 必要 有 更 多 的 分 支 数 。 不 过 ， 许 多 数据 控 据 工具 能 够 产生 具有 多 于 
两 个 分 支 的 树 。 例 如 ， 一 些 决策 树 算法 依据 分 类 变量 拆 分， 对 每 个 类 生成 一 个 分 支 ， 导 致 树 
在 不 同 结 点 上 有 不 同 数 目的 分 支 。 图 6-3 显示 的 分 类 问题 与 图 6-1 和 图 6-2 相同 ， 但 它 使 用 
三 路 拆 分 和 两 路 拆 分 得 到 树 。 


总 需求 单元 数 


[4.5, 15.5] 


区 党 


VOM 订 单数 过 去 以 来 的 天 数 过 去 以 来 的 天 数 


共 相 1 区 1 221.3 725 256， 756 
国 国 区 可 
平均 需求 费用 GMM 购 买 者 标志 
< 47.6 > 47.6 0 1 
平均 每 月 的 费用 总 费用 9604 


< 2 2.10132,4.> 4.116 


图 6-3 ”三 元 决策 树 应 用 于 与 图 6-1 相同 的 分 类 问题 
提示 : 在 一 个 结 点 允许 的 分 支 数 目 和 目标 变量 的 类 别 数目 之 间 没有 关系 。 二 元 树 
( 即 每 个 结 点 有 两 路 拆 分 ) 能 够 用 于 把 记录 分 类 为 任何 数目 的 类 别 ， 而 多 路 拆 分 树 
能 够 用 于 分 类 二 元 目标 变量 。 
6.2 决策 树 是 如 何 长 成 的 


尽管 决策 树 核心 算法 有 许多 变 体 ， 但 它们 都 具有 相同 的 基本 过 程 : 相对 于 目标 变量 而 
言 ， 每 一 新 生 结 点 比 其 原生 结 点 有 更 高 的 纯度 ， 通 过 这 种 方式 ， 把 数据 重复 地 拆 分 为 越 来 越 
小 的 群 组 。 在 本 章 的 多 数 讨论 中 ， 我 们 假定 变量 是 一 个 二 元 的 分 类 目标 变量 ， 例 如 响应 者 和 
非 响应 者 ， 在 没有 损失 普遍 适用 性 的 前 提 下 这 样 就 简化 了 解释 。 


6.2.1 发 现 拆 分 


在 这 一 过 程 的 开始 ， 有 一 个 由 预 分 类 记录 组 成 的 训练 集 ， 换 句 话说， 其 中 所 有 情形 的 目 
标 变量 值 都 是 已 知 的 。 我 们 的 目标 是 建立 一 棵 树 ， 基 于 输入 变量 的 数值 给 新 记录 的 目标 字段 
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指派 一 个 类 (或 归 为 每 个 类 的 可 能 性 )。 

通过 在 每 一 结 点 按照 单一 输入 字段 的 功能 拆 分 记录 可 以 建立 树 ， 因 而 ， 首 要 的 任务 是 确 
定 哪 一 个 输入 字段 会 产生 最 佳 拆 分 。 最 佳 拆 分 可 定义 为 : 能 够 把 记录 很 好 地 分 割 为 不 同 的 群 
组 ， 使 每 个 群 组 里 的 单个 类 成 为 主导 。 

这 里 用 于 评价 可 能 拆 分 的 度量 是 纯度 (purity) ， 下 一 节 将 更 详细 地 讨论 计算 纯度 的 一 些 
具体 方法 ， 不 过 ， 这 些 方 法 都 试图 达到 相同 的 效果 。 对 于 所 有 这 些 方法 ， 低 纯度 意味 着 该 集 
合 包含 了 各 个 类 的 典型 分 布 《相对 于 父 结 点 ) ， 而 高 纯度 意味 着 单个 类 别 的 成 员 占 主流 。 最 
佳 拆 分 就 是 那些 能 够 最 大 程度 地 增加 该 记录 集 纯度 的 拆 分 。 好 的 拆 分 也 会 创建 相似 大 小 的 结 
点 ， 至 少 不 要 创建 只 包含 很 少 记 录 的 结 点 。 

上 述 这 些 论 点 可 以 通过 直观 的 方法 很 容易 地 看 出 。 图 6-4 显示 了 一 些 好 的 拆 分 和 不 好 的 
拆 分 。 


好 的 拆 分 
图 6-4 好 的 拆 分 增加 所 有 子 结 点 的 纯度 


第 一 个 拆 分 不 好 ， 因 为 纯度 没有 增加 。 初 始 总 体 包含 相等 数量 的 两 类 点 ， 在 拆 分 后 ， 每 
一 个 子 结 点 仍然 如 此 ; 第 二 个 拆 分 也 不 好 ， 因 为 尽管 纯度 稍 有 增加 ， 纯 结 点 只 有 很 少 的 成 
员 ， 并 且 较 大 结 点 的 纯度 只 是 比 父 结 点 稍微 好 一 些 ; 最 后 一 个 拆 分 是 好 的 , :因为 它 给 出 的 子 
结 点 大 小 大 体 相同 并 且 纯 度 比 父 结 点 高 得 多 。 

建树 算法 是 一 种 穷 举 算法 ， 方 法 是 依次 纳入 每 一 个 输入 变量 并 测定 由 该 变量 建议 的 每 一 
拆 分 所 产生 的 纯度 增加 值 ， 在 尝试 所 有 输入 变量 之 后 ， 产 生 最 佳 拆 分 的 那 一 个 被 用 于 初始 的 
拆 分 ， 生 成 两 个 或 更 多 的 子 结 点 。 如 果 不 可 能 再 分 (因为 只 有 太 少 的 记录 ) 或 者 没有 能 够 改 
进 拆 分 纯度 ， 那 么 该 算法 结束 于 该 结 点 ， 该 结 点 变 为 一 个 叶 结 点 ; 和 否则， 该 算法 继续 进行 拆 
分 ， 并 在 每 一 个 子 结 点 上 重复 进行 ， 按 这 种 方式 重复 自身 的 算法 称 为 递归 算法 (recursive al- 
gorithm ) 。 

按照 目标 变量 对 结 点 纯度 的 影响 可 以 对 拆 分 进行 评价 。 这 意味 着 选择 一 个 适当 的 拆 分 标 
准 依赖 于 目标 变量 的 类 型 ， 而 不 是 输入 变量 的 类 型 。 对 于 分 类 目标 变量 ， 无 论 输 入 变量 生成 
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的 拆 分 是 数值 型 还 是 分 类 型 〈 诸 如 Gini、 信 息 增 益 或 卡 方 检验 ) 都 是 适用 的 。 类 伏地， 对 于 
一 个 连续 的 数值 型 变量 ， 通 过 诸如 方差 归 约 或 下 测试 等 方法 来 评价 该 拆 分 是 适用 的 ， 不 管 
该 输入 变量 产生 的 拆 分 是 分 类 型 的 还 是 数值 型 的 。 

1. 按照 数值 型 输入 变量 拆 分 

在 对 一 个 数值 型 输入 变量 寻找 二 元 拆 分 方式 时 ， 变 量 在 训练 集中 所 取 的 每 个 值 被 当 作 一 
个 拆 分 的 候选 值 处 理 。 对 数值 型 变量 的 拆 分 采取 “X< 六 ”的 形式 ，X ( 拆 分 变量 ) 值 小 于 
某 一 常量 六 的 所 有 记录 被 送 往 一 个 子 结 点 ， 所 有 X 值 大 于 或 等 于 六 的 记录 被 送 往 另 一 结 
点 。 在 每 次 尝试 性 拆 分 之 后 ， 度 量 由 该 拆 分 引起 的 纯度 的 增加 (如果 有 的 话 )。 为 提高 效率 ， 
一 些 拆 分 算法 工具 实际 上 不 是 评估 每 个 值 ， 而 是 评估 从 这 些 数 值 中 抽取 的 一 个 样本 。 

当 给 决策 树 评分 的 时 候 ， 数 值 型 输入 变量 的 惟一 用 途 是 把 它们 的 数值 和 拆 分 点 进行 比 
较 。 它 们 从 来 不 会 像 在 许多 其 他 类 型 的 模型 中 那样 ， 与 权重 相 乘 或 求 和 到 一 起 ， 这 就 导致 了 
一 个 重要 的 结果 ， 即 决策 树 对 数值 变量 的 离 群 值 (outlier) 或 倾斜 分 布 〈skewed distribu- 
tion) 不 敏感 ， 因 为 它 只 使 用 数值 变量 的 等 级 ， 而 不 是 它们 的 绝对 数值 。 

2. 按照 分 类 型 输入 变量 拆 分 

拆 分 分 类 型 输入 变量 的 最 简单 算法 是 : 对 该 分 类 变量 所 采用 的 每 个 类 别 创建 新 的 分 支 。 
因此 ， 如 果 颜 色 被 选 为 拆 分 根 结 点 的 最 好 字段 ， 且 训练 集 包 含有 红 、 橙 、 黄 、 绿 、 蓝 、 衣 、 
紫 这 些 值 的 记录 ， 那 么 在 该 树 的 下 一 层 上 将 有 7 个 结 点 。 这 种 方法 在 某 些 软件 包 中 已 经 被 实 
际 运用 ， 但 它 常 常 产 生 很 差 的 结果 。 高 分 支 数 会 快速 减少 每 个 树 的 低层 结 点 可 用 的 训练 记录 
总 体 ， 使 得 进一步 拆 分 的 可 靠 性 降低 。 

一 种 更 普遍 的 方法 是 把 单独 分 类 时 预示 相似 结果 的 类 组 合 到 一 起 。 更 确切 地 讲 ， 如 果 两 
个 输入 变量 产生 的 输出 变量 分 布 差别 不 显著 ， 那 么 这 两 个 类 别 就 可 以 合并 。 分 布 差别 是 否 明 
显 的 常用 测试 方法 是 卡 方 检验 。 

3. 出 现 缺 失 值 时 的 拆 分 方法 

决策 树 最 好 的 功能 之 一 是 它 处 理 缺 失 值 的 能 力 。 无 论 是 输入 字段 数值 型 还 是 分 类 型 ， 只 
要 简单 地 将 空 值 当 作 甚 自身 分 支 上 一 个 可 能 的 值 即 可 ， 这 种 方法 比 丢 弃 有 缺失 值 的 记录 或 试 
图 归纳 缺失 值 好 得 多 。 由 于 数值 缺失 而 丢弃 记录 可 能 造成 有 偏离 的 训练 集 ， 因 为 包含 缺失 值 
的 那些 记录 不 可 能 是 总 体 的 随机 样本 。 用 归纳 值 替换 缺失 值 则 有 这 样 的 危险 : 有 值 缺 失 这 一 
事实 提供 的 重要 信息 在 模型 中 将 被 忽略 。 我 们 已 经 看 到 许多 案例 ， 其 中 特定 值 为 空 的 事实 具 
有 预言 性 价值 。 有 一 个 这 类 案例 ， 在 追加 的 家 庭 层 次 人 口 统计 学 数据 中 ， 非 空 数值 的 计数 与 
一 个 定期 人 寿 保 险 服务 的 响应 正 相 关 。 显 然 ， 与 那些 生活 中 留 下 更 多 空 值 字段 的 人 相 比 ,在 
Acxiom 的 家 庭 数 据 库 中 留 下 许多 踪迹 〈 通 过 买房 子 、 结 婚 、 登 记 产 品 和 订阅 杂志 ) 的 人 们 
可 能 对 人 考 保 险 更 感 兴趣 。 

提示 : 决策 树 能 够 在 有 输入 变量 缺失 值 的 情况 下 进行 拆 分 。 某 值 为 空 值 的 事实 常常 

具有 预言 性 价值 ， 因 此 不 要 划 率 地 筛选 掉 有 缺失 值 的 记录 ， 或 者 试图 将 它们 替换 为 

妇 纳 值 。 

尽管 把 空 值 作为 一 个 单独 的 类 别 拆 分 常常 很 有 价值 ， 但 很 多 数据 挖掘 产品 还 提供 了 其 他 
替代 方法 。 在 Enterprise Miner 中 ， 每 个 结 点 存储 几 个 可 能 的 拆 分 规则 ， 每 一 个 都 以 一 个 不 
同 的 输入 字段 为 基础 。 当 产生 最 好 拆 分 的 字段 中 遇 到 空 值 时 ， 该 软件 使 用 基于 下 一 个 最 可 用 
的 输入 变量 的 拆 分 作为 替代 。 
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6.2.2 生成 完全 树 


首次 拆 分 产生 两 个 或 者 更 多 的 子 结 点 ， 然 后 以 与 根 结 点 相同 的 方式 继续 拆 分 每 一 个 子 结 
点 。 所 有 输入 字段 又 重新 被 看 做 候选 拆 分 器 ， 即 使 字段 已 经 被 用 于 拆 分 。 但 只 呈现 一 个 值 的 
字段 被 排除 在 考虑 之 外 ， 因 为 不 可 能 使 用 它们 建立 拆 分 。 已 经 在 树 的 高 处 用 作 拆 分 器 的 分 类 
字段 可 能 相当 快 地 变 为 单一 值 ， 这 样 对 每 一 剩余 字段 的 最 好 拆 分 就 是 确定 的 。 当 发 现 不 再 有 
拆 分 使 给 定 结 点 的 纯度 显著 增加 时 ， 或 有 结 点 中 记录 的 数目 达到 某 一 预 设 的 下 界 时 ， 或 者 当 
树 的 深度 达到 某 一 预 设 的 极限 时 ， 搜 索 那 一 分 支 的 拆 分 就 被 放弃 ， 该 结 点 被 标记 为 叶 结 点 。 

最 终结 果 是 ， 在 树 中 任何 地 方 都 不 可 能 发 现 更 多 的 拆 分 ， 于 是 完全 的 决策 树 就 生成 了 。 
就 像 我 们 将 要 看 到 的 ， 这 棵 完全 的 树 一 般 不 能 对 新 记录 集 最 好 地 进行 分 类 。 

决策 树 建立 算法 通常 始 于 在 期 望 类 别 中 试图 发 现 能 够 最 好 地 拆 分 数据 的 输入 变量 ， 在 树 
的 每 一 后 继 层 ， 前 一 次 拆 分 创建 的 子 集 本 身 按照 最 利于 其 工作 的 规则 拆 分 ， 树 继续 生长 ， 直 
到 不 可 能 发 现 更 好 的 方法 拆 分 新 的 记录 。 如 果 在 输入 变量 和 目标 变量 之 间 有 十 分 确定 的 关 
系 ， 这 一 递归 拆 分 将 最 终 产 生 一 棵 完全 由 纯 叶 结 点 组 成 的 树 。 要 造 出 这 种 例子 很 容易 ， 但 在 
市 场 交 易 活 动 或 CRM 应 用 中 它们 并 不 经 常 出 现 。 

客户 行为 数据 在 输入 和 输出 之 间 几 乎 从 来 不 包含 这 样 清晰 的 、 确 定性 的 关系 。 两 个 客户 
对 于 可 用 输入 变量 具有 完全 相同 的 描述 ， 这 个 事实 本 身 并 不 能 保证 他 们 将 表现 出 相同 的 行 
为 。 一 个 关于 邮购 目录 响应 模型 的 决策 树 可 能 包含 一 个 叶 ， 代 表 年 龄 超过 50 岁 、 在 去 年 之 
内 购买 了 三 次 或 者 更 多 、 生 存 期 总 花费 超过 145 美元 的 女士 。 而 到 达 该 叶 的 典型 客户 是 响应 
者 和 非 响应 者 的 混合 体 ， 如 果 在 问题 中 该 叶 被 标记 为 “响应 者 "， 那 么 非 响应 者 的 比例 就 是 
这 个 叶 的 误差 府 ， 这 个 叶 中 响应 者 比例 对 总 体 响 应 者 的 比例 之 比 是 该 叶 的 提升 度 。 

发 现 确定 性 规则 的 一 种 可 能 情况 是 在 数据 中 的 模式 〈pattern) 反映 商业 规则 的 时 候 ， 作 
者 通过 在 Caterpillar (一 家 内 燃 机 制造 商 ) 的 工作 经 历 最 终 意 会 到 了 这 一 点 。 我 们 通过 建立 
决策 树 模型 来 预测 哪 种 保修 索赔 将 被 核准 。 那 时 候 ， 该 公司 有 一 个 政策 ， 某 些 索赔 是 按照 它 
自动 支付 的 。 结 果 很 令 人 上 吃惊 : 在 未 使 用 过 的 测试 数据 上 ， 该 模型 100% 正确 。 换 名 话说， 
它 发 现 了 Caterpillar 用 于 分 类 索赔 的 确切 规则 ， 而 神经 网 络 工具 在 这 一 问题 上 很 少 会 成 功 。 
当然 ， 发 现 已 有 的 商业 规则 未 必 特 别 有 用 ， 然 而 它 的 确 衬托 出 决策 树 在 面向 有 规则 问题 时 的 
有 效 性 。 

在 许多 领域 ， 从 址 传 学 到 工业 生产 过 程 ， 确 实 存在 潜 规 则 ， 尽 管 这 些 潜 规 则 可 能 很 复 
杂 ， 且 会 被 嗜 杂 的 数据 沥 没 。 当 你 怀 蜂 存 在 潜 规 则 时 ， 决 策 树 是 一 个 很 自然 的 选择 。 


6.2.3 度量 决策 树 的 有 效 性 


决策 树 作为 一 个 整体 的 有 效 性 ， 可 以 通过 把 它 应 用 于 测试 集 (未 用 于 建立 该 树 的 记录 集 
合 ) 观察 其 正确 分 类 的 百分比 来 确定 。 它 提供 了 该 树 的 总 体 分 类 误差 率 ， 但 要 注意 该 树 单个 
分 支 的 性 质 也 很 重要 。 穿 过 该 树 的 每 一 条 路 径 代表 一 条 规则 ， 其 中 的 一 些 规则 会 比 另 一 
些 好 。 

在 每 个 结 点 处 ， 无 论 叶 结 点 还 是 枝 结 点 ， 我 们 可 以 测量 : 

。 进 人 该 结 点 的 记录 的 数目 

“在 每 一 类 中 记录 的 比例 
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“如 果 这 是 一 个 叶 结 点 ， 那 么 这 些 记录 将 被 如 何 分 类 

“在 这 一 结 点 处 记录 正确 分 类 的 百分比 

"训练 集 和 测试 集 分 布 之 间 的 差异 

其 中 特别 令 人 感 兴趣 的 是 在 该 结 点 处 记录 被 正确 分 类 的 百分比 ， 令 人 惊讶 的 是 ， 有 时 在 
树 中 高 处 的 结 点 完成 分 类 测试 集 的 工作 比 底层 的 结 点 好 。 


6.3 选择 最 佳 拆 分 的 测试 


有 许多 不 同 的 方法 可 用 于 评估 潜在 的 拆 分 。 在 机 器 学 习 领 域 开 发 的 算法 关注 于 拆 分 产生 
的 纯度 的 增加 ， 而 那些 在 统计 学 领域 开发 的 算法 则 关注 于 子 结 点 分 布 上 的 统计 学 差异 。 改 变 
拆 分 准则 (splitting criteria) 常常 导致 树 的 外 观 互 不 相同 ， 但 这 些 树 却 具 有 相似 的 性 能 ， 这 
是 因为 通常 有 许多 性 能 非常 相似 的 候选 拆 分 。 不 同 的 纯度 度量 导致 不 同 的 候选 者 被 选中 ,但 
既然 所 有 的 度量 都 试图 捕捉 同一 个 思想 ， 最 后 得 到 的 模型 就 会 趋向 于 相似 的 性 能 。 


6.3.1 纯度 和 发 散 性 


本 书 第 1 版 按照 拆 分 引起 的 发 散 性 的 降低 描述 了 拆 分 准则 ， 在 这 一 版 中 ， 我 们 改 为 按照 
纯度 的 增加 来 描述 拆 分 准则 ， 这 好 像 更 直观 一 些 ， 这 两 个 词 所 指 的 意思 是 相同 的 。 纯 度 度 量 
的 范围 可 以 从 0 ( 当 样 本 中 没有 两 项 是 在 同一 类 别 中 ) 到 1 ( 当 样 本 中 所 有 项 都 在 同一 个 类 
别 中 )， 用 ! 减 去 纯度 则 转换 为 发 散 性 度量 。 在 评价 决策 树 拆 分 时 ， 有 些 度 量 方法 习惯 赋予 
纯 的 结 点 最 低 分 数 ， 有 些 则 给 纯 的 结 点 指派 最 高 分 数 。 本 节 把 它们 都 用 作 纯 度 度量 ， 目 标 是 
通过 把 被 选 度量 最 小 化 或 最 大 化 来 优化 纯度 。 

图 6-5 显示 了 一 个 好 的 拆 分 。 父 结 点 包含 相等 数目 的 亮点 和 瞳 点 ; 左边 的 子 结 点 包含 9 
个 亮点 和 工 个 瞳 点 ; 右边 的 子 结 点 包含 9 个 暗 点 和 1 个 亮点 。 毫 无 疑问 ， 纯 度 增 加 了 ， 但 是 
这 种 增加 该 如 何 量化 呢 ? 这 一 拆 分 又 如 何 与 其 他 拆 分 相 比 较 呢 ? 这 就 需要 一 个 纯度 的 正式 定 
义 ， 下 面 列 出 了 其 中 的 几 个 。 

用 于 评价 拆 分 分 类 目标 变量 的 纯度 度量 包括 

。 基 尼 (Gini， 也 称 总 体 发 散 性 ) 

。 和 (entropy， 也 称 信息 增益 ) 

。 信 息 增 益 比 率 

。 卡 方 检验 

当 目 标 变量 为 数值 型 时 ， 一 种 途径 是 采用 上 述 某 一 个 方法 ， 此 外 ， 还 有 两 种 方法 都 可 用 
于 数值 型 目标 变量 ; 

。 方 差 归 约 

。 下 测试 

注意 ， 选 择 适当 的 纯度 度量 方法 取决 于 该 目标 变量 是 分 类 型 还 是 数值 型 的 ， 而 输入 变量 
的 种 类 无 关 紧要 ， 因 为 整个 树 是 用 相同 的 纯度 度量 方式 建立 的 。 在 图 6-5 中 演示 的 拆 分 可 能 
通过 一 个 数值 型 输入 变量 (年龄 >46) 或 通过 一 个 分 类 型 变量 (STATE 是 CTF、MA、ME、 
NH、RI、VI 中 的 一 个 ) 来 进行 。 不 论 拆 分 的 类 型 如 何 ， 子 结 点 的 纯度 都 是 相同 的 。 

〈 译 者 注 : 美国 的 每 个 州 通常 可 以 用 两 个 大 写字 母 作为 代码 来 表示 ， 如 CT Connecti- 


cut，MA- 一 Massachusetts。 ) 
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图 6-5 在 一 个 二 元 分 类 变量 上 ， 好 的 拆 分 增加 了 纯度 


6.3.2 基尼 或 总 体 发 散 性 


一 个 通用 的 拆 分 标准 被 称 为 基尼 ， 是 以 意大利 统计 学 家 和 经 济 学 家 Corrade Gini 的 名 字 
命名 的 ， 它 也 被 生物 学 家 和 生态 学 家 用 于 总 体 多 样 性 研究 ， 这 种 方法 用 于 计算 从 相同 的 总 体 
中 随机 选择 的 两 项 处 于 同一 个 类 中 的 概率 ， 对 于 一 个 纯 的 总 体 ， 此 概率 为 1。 

结 点 的 基尼 值 就 是 该 类 比例 的 平方 之 和 。 对 于 在 图 6-$ 中 所 示 的 拆 分 ， 父 结 点 总 体 具 有 
相等 数目 的 亮点 和 瞳 点 ， 可 以 预期 的 是 ， 两 个 类 中 每 个 都 具有 相等 数目 的 结 点 得 分 为 0.52+ 
0. 纯 =0.5， 因 为 通过 随机 选择 和 替换 ， 两 次 选 出 同一 个 类 的 可 能 性 是 二 中 选 一 。 所 得 到 的 
每 一 个 结 点 的 基尼 分 数 为 0.12+0.9 =0.82。 一 个 完美 的 纯 结 点 基尼 分 数 为 1， 一 个 均等 的 
平衡 结 点 基尼 分 数 为 0.$S。 有 时 该 分 数 被 加 倍 然后 减 1， 从 而 使 它 的 值 落 在 0 和 1 之 间 。 但 
在 比较 不 同 的 分 数 以 优化 纯度 时 这 样 的 变换 没有 差别 。 

要 计算 拆 分 的 效果 ， 可 以 把 每 一 子 结 点 的 基尼 分 数 乘 以 到 达 那 个 结 点 的 记录 的 比例 ， 然 
后 把 所 有 得 到 的 数值 求 和 。 在 这 个 例子 中 ， 因 为 记录 是 在 拆 分 得 到 的 两 个 结 点 之 间 被 平均 拆 
分 的 ， 并 且 每 个 结 点 都 有 相同 的 基尼 分 数 ， 所 以 该 拆 分 的 得 分 与 两 个 结 点 中 任何 一 个 的 得 分 
相同 。 


免费 领取 更 多 资源 V: 3446034937 


尖 赣 和 胡 121 


6.3.3 和 归 约 或 信息 增益 


信息 增益 使 用 一 个 巧妙 的 想法 来 定义 纯度 。 如 果 一 个 叶 是 完全 纯 的 ， 那 么 在 这 个 时 中 的 

类 很 容易 描述 一 一 它们 都 落 人 同一 个 类 中 。 反 之 ， 如 果 一 个 叶 是 高 度 不 纯 的 ， 那 么 描述 它 就 

杂 得 多 。 信 息 论 作为 计算 机 科学 的 一 部 分 ， 已 设计 出 一 个 度量 这 种 状况 的 方法 ， 称 为 精 

(entropy)。 在 信息 论 中 ， 是 对 一 个 系统 泰 乱 程度 的 度量 。 对 信息 论 的 全 面 介绍 远 远 超出 
了 本 书 的 范围 ， 对 于 我 们 的 目的 ， 直 观 的 概念 是 描述 特定 的 状况 或 结 点 需要 的 比特 位 数 取 决 
于 可 能 结果 集 的 大 小 。 业 可 被 看 做 确定 系统 状态 要 进行 的 是 或 否 问题 的 多 少 的 一 种 度量 方 
法 ， 如 果 有 16 个 可 能 的 状态 ， 它 占用 log (16) 或 者 四 个 比特 位 来 枚 举 它们 或 者 识别 其 中 
的 一 个 。 附 加 的 信息 减少 了 确定 该 系统 状态 所 需 问 题 的 数目 ， 因 此 信息 增益 与 箭 归 约 意思 是 
相同 的 。 两 个 术语 都 可 用 于 描述 决策 树 算 法 。 

对 于 某 个 指定 决策 树 结 点 ， 箭 是 该 结 点 所 代表 的 全 部 类 中 ， 每 个 特定 类 的 记录 的 比例 乘 
以 该 比例 以 2 为 底 的 对 数 后 的 总 和 (实际 上 ， 这 一 总 和 通常 乘 以 - 1 以 便 得 到 一 个 正 数 )。 
一 个 拆 分 的 入 就 是 该 拆 分 产生 的 所 有 结 点 的 简 按照 每 个 结 点 的 记录 所 占 比 例 的 加 权 和 。 当 入 
归 约 被 选 作 拆 分 准则 时 ， 算 法 搜寻 的 是 能 最 大 限度 地 减少 箭 (或 者 等 价 于 信息 增益 ) 的 
拆 分 。 

对 于 图 6-5 中 所 示 的 二 元 目标 变量 ， 单 个 结 点 灼 计算 公式 为 : 


-1# (P (dark) logz 已 (dark) +P (light) logz P (light)) 


在 这 个 例子 中 ，P (dark) 和 了 P (light) 都 是 一 半 。 把 0.5 代入 灶 的 计算 公式 得 : 


-1x (0.51ogy (0.5) +0.5logy (0.5)) 


第 一 项 表示 亮点 〈light) ， 第 二 项 表示 上 暗 点 (dark) ， 但 因为 亮点 和 上 栈 点 的 数目 相等 ， 该 
式 可 简化 为 -1* logz (0.5) 也 就 是 +1。 拆 分 产生 的 结 点 的 箭 是 什么 ? 其 中 一 个 结 点 有 1 
个 暗 点 和 9 个 亮点 ， 而 另 一 个 结 点 有 9 个 瞳 点 和 工 个 亮点 。 显 然 ， 它 们 具有 相同 的 和 ， 也 即 


-1x (0.1log。 (0.1) +0.91ogy (0.9)) =0.33+0.14=0.47 


为 计算 拆 分 后 的 系统 箭 的 总 和 ， 用 每 个 结 点 的 和 乘 以 到 达 该 结 点 的 记录 比例 并 把 它们 求 
和 以 得 到 平均 值 。 在 本 例 中 ， 每 个 新 结 点 接收 了 一 半 记 录 ， 因 此 总 焙 与 每 一 结 点 的 焙 相 同 ， 
即 0.47。 因 而 ， 由 于 该 拆 分 引起 的 总 箭 减少 或 信息 增益 为 0.53， 这 就 是 可 用 于 比较 这 个 拆 
分 和 其 他 候选 拆 分 的 数字 。 


6.3.4 信息 增益 比率 


有 一 种 拆 分 方法 ， 为 每 个 值 创 建 一 个 单独 分 支 来 处 理 分 类 型 输入 变量 ， 当 箭 拆 分 度量 与 
这 种 方法 结合 时 ， 可 能 会 陷 人 麻烦 。ID3 就 属于 这 种 情况 ， 它 是 由 澳大利亚 研究 者 J. Ross 
Quinlan 在 20 世纪 80 年 代 开 发 的 一 个 决策 树 工 具 ， 已 成 为 几 种 商业 数据 挖掘 软件 包 的 一 部 
分 。 问 题 是 ， 仅 通过 把 大 的 数据 分 解 到 许多 小 的 子 集 ， 出 现在 每 个 结 点 中 类 的 数目 趋向 于 下 
降 ， 同 时 简 也 会 降低 。 完 全 归 因 于 分 支 数 的 精 归 约 被 称 为 拆 分 的 本 征 信 息 (intrisinc infor- 
mation) 。( 前 面 说 过 ， 焙 被 定义 为 每 个 分 支 的 概率 乘 以 该 概率 以 2 为 底 的 对 数 ， 把 所 有 分 支 
之 焙 求 和 。) 对 于 一 个 随机 的 ”路 拆 分 ， 每 个 分 支 的 概率 是 1/2 ， 因 此 ， 单 独 归 因 于 从 一 个 


免费 领取 更 多 资源 V: 3446034937 


122 锅 6 莫 


7 路 拆 分 中 得 到 的 拆 分 的 箭 就 是 zx* 1/[alog (1[a) 或 log (1 )。 正 因为 存在 多 路 拆 分 的 本 
征 信息 ， 如 果 对 归 因 于 拆 分 的 本 征 信 息 没 有 任何 校正 ， 使 用 入 归 约 拆 分 准则 建立 的 决策 树 会 
变 得 枝 权 非 常 密集 ， 而 这 样 的 具有 许多 多 路 拆 分 的 密集 树 并 不 是 我 们 想 要 得 到 的 ， 因 为 这 种 
拆 分 导致 每 个 结 点 中 有 很 少数 目的 记录 ， 这 是 一 个 不 稳定 模型 的 构建 办 法 。 

为 解决 这 个 问题 ， 曾 经 使 用 信息 增益 的 C5 和 其 他 ID3 的 后 续 版 本 现在 使 用 一 个 比率 ， 
这 个 比率 是 由 拆 分 引起 的 总 的 信息 增益 与 可 单独 归 因 于 评价 拆 分 准则 而 创建 的 分 支 数 的 本 征 
信息 的 比率 。 这 种 试验 减少 了 在 早期 的 决策 树 软件 包 中 形成 枝 权 茂密 树 的 趋向 。 


6.3.5 卡 方 检验 


像 在 第 $ 章 中 描述 的 那样 ， 卡 方 〈 尺 ) 检验 是 由 英国 统计 学 家 开 arl Pearson 在 1900 年 
提出 的 用 于 测试 统计 学 显著 性 的 方法 。 卡 方 被 定义 为 在 多 重 不 相交 样本 中 ， 某 个 事件 的 期 户 
频率 和 观察 频率 的 标准 差 的 平方 和 。 换 句 话说， 该 测试 所 度量 的 是 在 样本 间 观 察 到 的 差异 只 
归 因 于 偶然 性 的 概率 。 当 用 于 测量 决策 树 拆 分 纯度 时 ， 较 高 的 卡 方 数值 意味 着 差异 更 显著 ， 
不 能 仅仅 归 因 于 偶然 。 


使 用 基尼 箭 比较 两 个 拆 分 
考虑 下 列 两 个 拆 分 ， 如 下 图 所 示 。 在 两 个 拆 分 中 ， 黑 点 和 亮点 总 体 开 始 时 非常 平衡 ， 每 
种 都 有 10 个 。 一 种 拆 分 产生 与 图 6-5 相同 的 两 个 大 小 相等 的 结 点 ， 其 中 一 个 包 食 90% 的 暗 
点 ， 面 另 一 个 包含 90% 的 亮点 ; 第 二 种 拆 分 产生 一 个 含有 100% 的 纯 瞳 点 的 结 点 ， 但 只 有 6 
个 点 ; 而 另 一 个 包含 14 个 点 ， 但 其 中 只 有 71.4% 是 亮点 。 


两 种 拆 分 中 ， 哪 一 种 最 能 增加 纯度 ? 


使 用 基尼 评价 这 两 个 拆 分 
像 正 文中 冰 杰 的 那样 ， 在 第 一 种 拆 分 中 的 两 个 子 结 点 ， 每 一 个 的 基尼 得 分 是 0.12+0.9= 
0.820。 因 为 子 结 点 大 小 相同 ， 这 也 就 是 该 拆 分 的 得 分 。 
第 二 种 拆 分 又 如 何 ? 左边 结 点 的 基尼 得 分 是 1， 因为 只 出 现 了 一 个 类 别 ， 右 边 结 点 的 基 
尼 得 分 是 : 
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Giniuioke = (4/14)2+ (10/14)2= 0.082+ 0.510= 0.592 


这 一 拆 分 的 基尼 得 分 是 
(6/20) Giniiert + (14720) Giniright =0.3x*1T+0.7x*0.592=0.714 


既然 第 一 个 拆 分 的 基尼 得 分 〈0.820) 比 第 二 个 拆 分 的 基尼 得 分 (0.714) 大 ， 使 用 基尼 
准则 建立 的 树 将 更 倾向 于 产生 两 个 几乎 很 纯 的 子 结 点 的 拆 分 ， 而 不 是 产生 一 个 完全 纯 的 子 结 
点 加 上 一 个 更 大 但 不 很 纯 的 子 结 点 拆 分 。 

使 用 凡 评价 这 两 个 拆 分 

像 在 正文 中 计算 的 那样 ， 父 结 点 的 精 是 1。 第 一 个 拆 分 的 精 也 在 正文 中 计算 过 ， 是 
0.47， 因 此 第 一 种 拆 分 的 信息 增益 是 0.53。 

第 二 种 拆 分 的 信息 增益 是 多 少 ? 左边 的 子 结 点 是 纯 的 ， 因 此 炳 为 0。 对 于 右边 的 子 结 
点 ， 业 的 计算 公式 是 


- (P (dark) logzB (dark) +BP (light) logzP (light)) 


因此 右边 子 结 点 的 精 是 : 


Entropyriakt = - 〈( (4714) logz (4[14) + (10714) 1ogy (10714)) = 0.516+0.347 = 0.863 


这 种 拆 分 的 炳 是 所 生成 结 点 精 的 加 权 平 均值 。 在 本 例 中 为 : 


0.3*Entropylett + 0.7<Entropyrigt =0.3x*0+0.7x0.863=0.604 


从 父 结 点 的 精 (为 1) 中 减 去 0.604 得 到 0.396 的 信息 增益 ， 这 比 第 一 种 拆 分 的 信息 增 
益 0.53 少 ， 所 以 在 这 个 案例 中 ， 灶 拆 分 准则 也 更 倾向 于 第 一 种 拆 分 ， 而 不 是 第 二 种 。 与 基 
尼 得 分 相 比较 ， 炳 准则 对 更 纯 的 结 点 确实 有 更 强 的 倾向 ， 即 使 该 结 点 很 小 。 在 确实 有 清晰 的 
潜在 规则 的 领域 ， 这 也 许 是 适合 的 ， 但 在 诸如 对 市 场 营销 服务 做 出 响应 这 种 领域 ， 它 会 导致 
不 太 稳 定 的 树 。 


例如 ， 假 定 目 标 变量 表示 的 是 在 产品 引导 期 客户 是 否 将 续 约 的 二 元 标记 ， 拆 分 是 按 “ 获 
取 渠 道 ”建立 的 ， 这 是 一 个 有 直接 邮寄 、 长 途 电话 和 电子 邮件 三 个 类 别 的 分 类 变量 。 如 果 获 
取 渠 道 对 更 新 率 没 有 影响 ， 我 们 可 以 预期 每 个 类 的 更 新 数目 与 通过 该 渠道 获取 的 顾客 数目 成 
正比 。 对 于 每 个 渠道 ， 卡 方 检验 分 值 可 以 如 下 计算 : 从 实际 观察 的 更 新 中 减 去 期 望 的 更 新 数 
目 ， 计 算 二 者 差 的 平方 ， 并 除 以 期 望 值 数 目 ， 最 后 把 每 个 类 的 对 应 数值 加 在 一 起 就 得 到 了 该 
分 值 。 正 如 第 5 章 中 描述 的 那样 ， 卡 方 分 布 提供 了 一 种 把 卡 方 检验 分 值 转化 为 概率 的 方法 。 
在 决策 树 中 测量 拆 分 的 纯度 ， 使 用 这 个 分 数 就 足够 了 ， 高 得 分 表示 该 拆 分 可 以 成 功 地 把 总 体 
拆 分 为 有 显著 分 布 差异 的 次 级 分 组 。 

卡 方 检验 把 它 命名 为 CHAID， 是 由 John A. Hartigan 在 1975 年 首次 发 表 的 有 名 的 决策 
树 算 法 ， 这 个 缩写 词 代表 卡 方 自动 交互 检测 器 (Chi-square Automatic Interaction Detector)。 
顾 名 思 议 ，CHAID 的 最 初 动机 就 是 为 了 检测 变量 之 间 的 统计 学 关系 ， 它 通过 建立 决策 树 做 
到 这 一 点 ， 因 此 这 个 方法 也 已 经 被 用 作 分 类 工具 。CHAID 使 用 卡 方 检验 有 以 下 玫 种 方 
式 一 一 首先 是 合并 目标 变量 上 没有 重要 差异 的 类 ， 然 后 选择 最 佳 拆 分 ， 最 后 确定 在 一 个 结 点 
上 是 否 有 必要 执行 任何 另外 的 拆 分 。 在 研究 领域 ， 目 前 流行 的 是 尽 可 能 少 用 续 拆 分 的 方法 
《仅仅 当 可 能 有 用 的 时 候 才 使 用 ) 而 倾向 于 包含 修剪 的 方法 。 但 有 一 些 研 究 者 仍然 喜欢 原始 
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的 CHAID 方法 而 不 喜欢 修剪 。 

卡 方 检验 应 用 于 分 类 变量 ， 所 以 在 经 典 CHAID 算法 中 ， 输 入 变量 必须 是 分 类 型 。 连 续 
变量 必须 归档 或 替换 为 顺序 的 类 别 ， 例 如 高 、 中 、 低 。 当 前 的 一 些 决策 树 工 具 ， 例 如 SAS 
Enterprise Miner， 使 用 卡 方 检验 进行 分 类 变量 的 拆 分 ， 而 使 用 另 一 项 统计 学 测试 〈( 即 下 测 
试 ) 对 连续 变量 进行 拆 分 。 同 样 ， 即 使 当 拆 分 不 具有 统计 学 方面 的 显著 差别 时 ， 一 些 
CHAID 工具 仍 继续 建树 ， 然 后 应 用 修剪 算法 把 树 裁剪 回来 。 


6.3.6 方差 归 约 


前 面 四 个 纯度 度量 方法 都 是 应 用 于 分 类 型 目标 的 。 当 目标 变量 是 数值 型 时 ， 一 个 好 的 拆 分 
应 当 减 少 目标 变量 的 方差 。 前 已 述 及 ,方差 度量 的 是 总 体 中 接近 于 均值 的 趋向 。 在 具有 低 方差 
的 样本 中 ， 大 多 数 数 值 非常 接近 均值 ;在 具有 高 方差 的 样本 中 ， 许 多 数值 远离 均值 。 方 差 的 实 
际 公式 是 标准 差 平 方 和 的 均值 。 尽 管 方差 归 约 的 拆 分 准则 是 针对 数值 变量 的 ， 但 它 仍然 能 够 用 
于 图 6-5 中 的 暗 点 和 亮点 ， 可 以 通过 把 暗 点 视 为 1、 亮点 视 为 0 来 应 用 。 父 结 点 的 均值 很 明显 
是 0.$，20 个 观察 值 的 每 一 个 都 与 均值 有 0.5 的 差异 ， 因 此 方 盖 为 (20* 0. 条 ) [20=0.2S。 拆 
分 以 后 ， 左 边 的 子 结 点 有 9 个 上 暗 点 和 一 个 亮点 ， 因 此 该 结 点 的 均值 是 0.9。9 个 观察 值 与 均值 
有 0.1 的 差异 ，1 个 观察 值 与 均值 有 0.9 的 差异 ， 因 此 方差 为 (0. 儿 +9x*0.12) /10=0.09。 因 
为 拆 分 后 的 两 个 结 点 方差 都 是 0.09， 拆 分 后 总 的 方差 也 是 0.09， 由 于 拆 分 引起 的 方差 归 约 是 
0.25-0.09=0.16。 


6.3.7 F 测试 


另 一 个 可 用 于 数值 目标 变量 的 拆 分 准则 为 下 测试 ， 它 是 以 另 一 位 著名 的 英国 统计 学 家 、 
天 文学 家 和 遗传 学 家 Ronald.A.Fisher 的 名 字 命 和 名。 尽管 〈 也 可 能 是 由 于 ) Fisher 和 Pearson 
兴趣 范围 有 很 大 部 分 的 重 友 ， 据 说 他 们 并 不 来 往 ， 但 Fisher 针对 连续 变量 的 测试 所 做 的 工作 
就 是 Pearson 针对 分 类 变量 的 卡 方 检验 所 做 的 工作 ， 它 提供 了 一 个 度量 概率 的 方法 ， 可 以 用 
于 度量 具有 不 同 均值 和 方差 的 样本 实际 取 自 同一 个 总 体 的 概率 。 

在 样本 的 方差 和 被 取样 总 体 的 方差 之 间 有 一 个 很 好 理解 的 关系 (事实 上 ， 只 要 样本 大 小 
合理 并 且 是 从 总 体 中 随机 抽取 的 ， 从 样本 方差 可 以 很 好 地 估计 总 体 方差 。 很 小 的 样本 少 
于 30 条 观测 值 一 一 通常 比 它们 对 应 的 总 体 具 有 更 高 的 方差 )。F 测试 观察 的 是 两 个 总 体 方差 
估计 之 间 的 关系 一 一 一 个 是 抽出 所 有 的 样本 并 计算 组 合 样本 的 方差 ， 另 一 个 是 计算 中 间 样 本 
方差 作为 样本 平均 方差 。 如 果 诸 多 不 同 的 样本 是 从 同一 个 总 体 中 随机 抽取 的 ， 这 两 个 估计 值 
应 当 非 常 接近 。 

F 分 值 是 两 个 估计 值 之 比 ， 把 中 间 样 本 估计 值 除 以 抽取 的 样本 估计 值 即 可 求 出 该 分 值 。 
该 分 值 越 大 ， 样 本 就 越 不 可 能 全 部 是 从 同一 个 总 体 中 随机 抽取 的 。 在 决策 树 环境 下 ， 一 个 大 
的 分 值 表明 拆 分 已 成 功 地 把 总 体 拆 分 为 具有 显著 分 布 差异 的 分 组 。 


6.4 修剪 


如 前 所 述 ， 只 要 能 找到 新 的 拆 分 ， 能 够 改善 把 训练 集中 的 记录 分 割 为 更 纯 的 子 集 的 能 
力 ， 决 策 树 就 会 继续 长 高 。 这 样 的 决策 树 已 针对 训练 集 进行 优化 ， 因 而 去 掉 任 何 叶子 都 会 增 
加 该 树 在 训练 集 上 的 误差 率 。 这 是 否 瞳 示 着 完整 的 树 将 完成 最 好 的 新 数据 集 的 分 类 工作 呢 ? 
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当然 不 是 ! 

决策 树 算 法 首先 在 有 大 量 记录 的 根 结 点 处 做 出 最 好 的 拆 分 ， 随 着 结 点 变 得 越 来 越 小 ， 一 
个 结 点 上 特定 训练 记录 的 特性 开始 支配 该 过 程 。 理 解 这 一 点 的 一 种 方式 是 该 树 在 大 结 点 发 现 
通用 模式 ， 在 小 结 点 发 现 训练 集 的 具体 模式 。 换 名 话说， 该 树 过 度 适 应 (overfit) 于 该 训练 
集 ， 结 果 将 是 一 个 不 会 做 出 好 的 预测 的 不 稳定 的 树 。 解 决 这 个 问题 的 对 策 是 通过 一 个 称 为 修 
剪 的 过 程 ， 它 合并 小 的 叶子 从 而 排除 不 稳定 的 拆 分 。 下 面 详细 讨论 三 种 通用 的 修剪 算法 。 


6.4.1 CART 修剪 算法 


CART 是 一 个 流行 的 决策 树 算 法 ， 由 Leo Breiman、Jerome Friedman、Richard Olshen 和 
Charles Stone 在 1984 年 首先 发 布 ，CART 是 英文 词组 “Classification and Regression Trees” 
(分 类 与 回归 树 ) 的 首 字母 缩写 词 。CART 算法 产生 二 元 树 ， 而 且 只 要 发 现 新 的 拆 分 能 增加 
纯度 就 继续 拆 分 。 如 图 6-6 所 示 ， 在 一 个 复杂 的 树 内 部 ， 有 许多 较 简 单 的 子 树 ， 每 一 个 子 树 
代表 在 模型 复杂 性 和 训练 集 误 分 类 率 之 间 的 一 种 折 囊 。CART 算 法 把 这 样 一 些 子 树 的 集合 视 
为 候选 模型 ， 这 些 候 选 子 树 被 应 用 于 验证 集 ， 具 有 最 低 验 证 集 误 分 类 率 的 树 被 选 作 最 终 
模型 。 


图 6-6 在 复杂 树 的 内 部 ， 有 更 简单 、 更 稳定 的 树 


1. 创建 候选 子 树 

CART 算法 通过 重复 修剪 过 程 识 别 出 候 选 子 树 ， 目 标 是 首先 修剪 那些 每 个 叶 提供 最 少 附 
加 预言 性 能 力 的 分 支 。 为 了 识别 这 些 最 没 用 的 分 支 ，CART 依靠 一 个 称 为 调整 误差 率 〈ad- 
justed error rate) 的 概念 。 这 种 方法 基于 该 树 中 叶 的 数目 给 出 复杂 性 罚 分 ， 从 而 在 训练 集 上 
增加 每 个 结 点 的 误 分 类 率 。 调 整 误 差 率 可 用 于 识别 弱 的 分 支 〈 误 分 类 率 不 够 低 ， 因 而 不 能 超 
过 罚 分 的 分 支 )， 并 做 上 修剪 标记 。 


在 训练 集 和 验证 集 上 比较 误 分 类 率 
验证 集 (validation set) 上 的 误差 率 应 当 比 训练 集 上 的 误差 率 大 ， 因 为 训练 集 是 用 于 建 
立 模 型 中 的 规则 的 。 然 而 ， 在 误 分 类 误差 率 中 的 一 个 巨大 差 值 是 一 个 不 稳定 模型 的 征兆 。 这 
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一 差 值 能 够 用 SAS Enterprise Miner 产生 的 如 下 三 个 图 所 示 的 几 种 方式 表示 出 来 。 该 图 给 出 
的 是 在 决策 树 中 候选 模型 正确 分 类 的 记录 的 百分比 ， 有 较 少 结 点 的 候选 子 树 在 左边 ， 有 更 多 
结 点 的 在 右边 。 这 些 图 显示 了 正确 分 类 的 百分比 而 不 是 误差 率 ， 因 此 它们 与 本 书 中 其 他 地 方 
所 示 的 类 似 图 表 的 方式 是 相互 站 倒 的 。 

像 预期 的 那样 ， 第 一 个 图 表 表 明 在 训练 集 上 ， 当 树 的 结 点 越 来 越 多 时 候选 树 表 现 得 越 来 
越 好 ， 当 表现 不 再 改善 时 ， 训 练 过 程 停止 。 然 而 在 验证 集 上 ， 候 选 树 达到 一 个 峰值 ， 然 后 随 
着 树 变 大 性 能 开始 下 降 。 最 优 树 是 在 验证 集 上 起 作用 的 那 棵 树 ， 挑 选 很 容易 ， 因 为 峰值 轮廓 
分 明 。 


这 个 图 表 显示 出 在 验证 集 正确 分 类 的 百分比 图 中 的 一 个 清晰 的 拐点 


但 有 时 并 没有 清晰 的 分 界 点 。 换 句 话 说， 当 树 变 大 时 ， 候 选 模型 在 验证 集 上 的 表现 从 来 
没有 完全 到 达 最 高 值 。 在 这 种 情况 下 ， 修 剪 算 法 选择 整个 树 〈 可 能 的 最 大 子 树 )， 如 下 图 
所 示 。 


正确 分 类 比例 


在 这 个 图 表 中 ， 验 证 集中 正确 分 类 的 百分比 早早 地 变 平 ， 一 直 维持 在 远 低 于 训练 集中 正确 分 类 的 百分比 处 
最 后 的 例子 可 能 是 最 值得 关注 的 ， 因 为 当 候选 树 变 大 后 ， 验 证 集 上 的 结果 变 得 不 稳定 ， 
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不 稳定 的 原因 是 叶子 太 小 了 。 在 这 棵 树 中 有 一 个 叶子 ， 它 包含 训练 集中 的 三 条 记录 ， 并 且 所 
有 三 条 记录 的 目标 值 都 为 1 一 个 完美 叶子 的 例子 。 然 而 ， 在 验证 集中 ， 落 到 那里 的 一 条 
记录 值 为 0， 该 叶 是 100% 错 误 的 。 当 树 生长 得 更 复杂 ， 更 多 的 这 类 小 叶子 被 包括 进来 ， 导 
致 如 下 的 不 稳定 性 。 

排 在 前 面 的 事件 比例 (1096) 


0.9 


05 二 人 人 5 站 
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 480 500 520 540 560 580 


叶子 数目 
在 这 个 图 表 中 ， 随 树 的 复杂 度 增加 ， 验 证 集 上 的 正确 分 类 百分比 降低 ， 并 最 终 变 得 混乱 


最 后 两 个 图 是 不 稳定 模型 的 例子 。 避 免 这 类 不 稳定 性 的 最 简单 方法 是 确保 叶子 不 要 变 得 
太 小 。 

调整 误差 率 公式 是 : 

aE (T) = 已 (T) +aljeaf _count (了 ) 


其 中 o 是 调整 因子 系数 ， 随 新 子 树 创 建 逐 步 增 大 。 当 u 为 零 时 ， 调 整 误 关 率 等 于 误差 率 。 
为 找到 第 一 棵 子 树 ， 随 vc 逐步 增加 ， 包 括 根 结 点 在 内 的 所 有 可 能 的 子 树 的 调整 误差 率 都 被 
做 出 评价 。 当 一 些 子 树 的 调整 误差 率 变 得 小 于 或 等 于 整个 树 的 调整 误差 率 时 ， 我 们 就 找到 了 
第 一 棵 候选 子 树 ， 即 ci; 所 有 不 是 ci 的 组 成 部 分 的 分 支 被 剪除 ， 然 后 过 程 重 新 开始 ，ul 树 
被 修剪 创建 一 个 wz 树 ; 当 树 被 一 路 修剪 至 根 结 点 时 该 过 程 结 束 。 每 一 个 产生 的 子 树 〈 有 时 
被 称 为 ctpjpas) 是 最 终 模 型 的 候选 者 。 注 意 : 所 有 的 候选 者 包括 根 结 点 ， 最 大 的 候选 者 就 
是 整个 树 。 

2. 挑选 最 佳 子 树 

接 下 来 的 任务 是 从 候选 的 众多 子 树 中 选择 在 新 的 数据 上 工作 最 好 的 子 树 。 当 然 ， 这 是 验 
证 集 的 用 途 之 所 在 ， 每 一 个 候选 子 树 被 用 于 分 类 验证 集中 的 记录 ， 执 行 这 一 任务 时 给 出 最 低 
的 总 误差 率 的 那 棵 树 被 宣布 为 获胜 者 。 获 胜 的 子 树 已 经 对 消除 训练 过 度 的 效果 做 了 足够 充分 
的 修剪 ， 但 又 不 怎么 损失 有 价值 的 信息 。 图 6-7 中 的 图 形 演示 了 在 分 类 准确 性 上 修剪 的 效 
果 。 技 术 旁 白 更 详细 深入 地 讨论 了 这 一 点 。 

因为 这 一 修剪 算法 是 完全 基于 误 分 类 率 的 ， 没 有 考虑 每 一 种 类 别 的 概率 ， 所 以 它 把 所 有 
叶子 给 出 相同 分 类 的 任何 子 树 替 换 为 做 出 同样 分 类 的 公共 父 结 点 。 在 目标 是 选 出 一 个 很 小 比 
例 记 录 〈 例 如 最 高 的 1% 或 10%) 的 应 用 中 ,， 这 一 修剪 算法 可 能 损害 树 的 性 能 ， 因 为 一 些 被 
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删除 的 叶子 可 能 包含 很 高 比例 的 目标 类 别 。 某 些 工 具 ， 例 如 SAS Enterprise Miner， 人 允许 用 
户 针对 这 种 情况 对 树 做 出 最 优 的 修剪 。 


| 


误差 率 


验证 数据 


树 的 深度 
图 6-7 ”修剪 算法 选择 那些 在 验证 集 上 计算 误差 率 最 小 的 树 


3. 使 用 测试 集 评价 最 终 的 树 

在 验证 集中 的 记录 被 应 用 于 分 类 任务 时 ， 获 胜 的 子 树 是 以 其 总 误差 率 为 基础 被 选 出 的 。 
但 是 ， 当 我 们 期 待 选中 的 子 树 在 用 于 其 他 数据 集 时 仍 将 表现 最 好 ， 使 它 被 选中 的 误差 率 可 能 
有 一 点 夸大 它 的 有 效 性 。 可 能 有 很 大 数量 的 子 树 表现 得 与 选中 的 树 一 样 好 ， 在 某 种 程度 上 ， 
这 些 子 树 中 在 验证 集 上 给 出 最 低 误差 率 的 那 棵 树 也 许 是 从 这 些 特定 的 记录 集合 中 “和 赁 侥幸” 
被 选中 的 。 正 因为 如 此 ， 像 在 第 3 章 中 解释 的 那样 ， 被 选中 的 子 树 被 应 用 于 与 验证 集 和 训练 
集 都 不 相交 的 第 三 个 预 分 类 数据 集 ， 这 个 数据 集 被 称 为 测试 集 。 在 测试 集 上 得 到 的 误差 率 被 
用 于 预测 将 选中 树 所 代表 的 分 类 规则 应 用 到 未 分 类 数据 时 的 期 望 性 能 。 

芍 告 : 不 要 利用 在 验证 集 上 的 提升 度 或 误差 率 评 价 一 个 模型 的 性 能 。 与 训练 集 一 

样 ， 它 已 参与 了 模型 创建 ， 因 此 将 夸大 模型 的 准确 度 。 要 始终 在 那些 与 训练 集 和 验 

证 集 出 自 同一 总 体 但 没有 以 任何 方式 用 于 创建 模型 的 测试 集 上 测量 模型 的 准确 度 。 


6.4.2 6C5 修剪 算法 
Cs 是 澳大利亚 研究 者 J. Ross Quinlan 演化 和 精 修 多 年 的 决策 树 算法 的 最 新 版 本 。 它 的 
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一 个 早期 的 版 本 ID3， 是 在 1986 年 发 布 的， 在 机 器 学 习 领 域 非常 有 影响 ， 它 的 后 续 版 本 被 
应 用 于 几 种 商业 数据 挖掘 产品 中 (ID3 这 个 名 字 代 表 “Iterative Dichotomiser 3” (和 迭代 二 分 
器 3)， 我 们 还 没有 听 到 对 CS 这 个 名 字 的 解释 ， 但 是 我 们 能 够 猜 出 Quinlan 教授 的 教育 背景 
是 数学 而 不 是 市 场 营 销 )。 作 为 商业 产品 ，C5 可 以 从 RuleQuest (www.rulequest.com ) 
购买 。 

用 Cs5 生成 的 树 与 那些 用 CART 生成 的 树 很 相似 〈 尽 管 和 CART 不 同 ，C5 是 在 分 类 变 
量 上 进行 多 路 拆 分 )。 类 似 于 CART，5C5 算法 首先 生成 一 棵 过 度 适 应 的 树 然 后 把 它 修剪 回来 
创建 一 个 更 稳定 的 模型 ， 但 修剪 的 策略 却 非常 不 同 。C5s 并 不 使 用 验证 集 从 候选 子 树 中 做 出 
选择 ， 因 为 用 于 生成 该 树 的 相同 数据 也 用 于 判定 该 树 应 当 如 何 修剪 。 这 或 许 反映 出 该 算法 起 
源 于 学 术 界 ， 在 过 去 ， 大 学 研究 者 很 难 有 时 间 把 精力 放 在 用 作 训 练 集 的 大 量 真 实数 据 上 。 因 
此 ， 他 们 花 更 多 的 时 间 和 精力 ， 试 图 从 穷尽 的 数据 集中 尽 可 能 发 掘 到 哪怕 是 最 后 的 一 点 信 
息 一 一 在 商业 界 中 数据 挖掘 者 是 不 会 遇 到 这 个 问题 的 。 

保守 式 修剪 

C5 通过 检查 每 一 结 点 的 误差 率 修 剪 树 ， 并 假定 真实 的 误差 率 实际 上 已 经 足够 差 。 如 果 
六 个 记录 到 达 一 个 结 点 ， 其 中 瑟 个 是 分 类 错误 的 ， 那 么 该 结 点 的 误差 率 为 下 /IN。 现 在 生成 
树 算法 的 全 部 要 点 是 最 小 化 这 一 误差 率 ， 因 此 算法 假定 在 所 能 够 做 到 的 范围 内 ， 给 出 最 小 
E/N 的 树 是 最 好 的 。 

C5 使 用 带 有 统计 学 抽样 的 类 推 法 给 出 在 一 个 叶 上 可 能 出 现 的 最 坏 误差 率 的 评估 值 。 该 
类 推 法 通过 如 下 方式 工作 : 把 该 时 上 的 数据 视 为 表示 一 系列 尝试 的 结果 ， 其 中 的 每 个 尝试 能 
够 有 两 个 可 能 的 结果 〈 首 或 尾 是 常见 的 结果 )。 正 如 已 经 发 生 的 那样 ， 至 少 从 1713 年 起 ， 即 
Jacques Bernoulli 的 著名 二 项 式 定理 发 布 的 那 年 ， 统 计 学 家 就 已 经 在 研究 这 种 特殊 的 情形 。 
因此 有 现成 的 公式 可 用 于 确定 在 N 次 尝试 中 观察 到 下 次 出 现 有 多 大 意义 。 

特别 是 ， 有 一 个 针对 某 个 给 定 置信 水 平 的 公式 ， 可 以 给 出 置信 区 间 一 一 开 的 预期 数值 
的 范围 。C5 假定 在 训练 集 上 观察 的 误差 数目 是 该 范围 的 低 端 ， 并 代 人 高 端 来 得 到 一 个 叶 的 
推算 误差 率 ， 即 在 未 见 数据 上 的 下 LN。 结 点 越 小 ， 误 差 率 越 高 。 当 一 个 结 点 的 高 端 误差 估 
计 值 小 于 其 子 结 点 的 误差 估计 值 时 ， 该 子 结 点 被 修剪 掉 。 


6.4.3 基于 稳定 性 的 修剪 


CART 和 C5 (实际 上 也 包括 作者 用 过 的 所 有 商业 决策 树 工 具 ) 使 用 的 修剪 算法 有 一 个 
问题 ， 它 们 未 能 修剪 一 些 明显 不 稳定 的 结 点 。 在 图 6-8 中 高 亮 显示 的 拆 分 是 一 个 很 好 的 例 
子 。 该 图 是 用 SAS Enterprise Miner 观察 一 棵 树 时 的 默认 设置 生成 的 ， 每 一 结 点 的 左边 数目 
显示 了 在 训练 集 上 发 生 的 情况 ， 结 点 右边 的 数目 显示 了 在 验证 集 上 发 生 的 情况 ， 这 一 特定 的 
树 试图 识别 流失 者 。 当 只 考虑 训练 集 数据 时 ， 高 亮 显 示 的 分 支 看 来 工作 良好 ， 流 失 者 的 集中 
度 从 58.0% 升 至 70.9% 。 不 幸 的 是 ， 当 完全 相同 的 规则 应 用 于 验证 集 时 ， 流 失 者 的 集中 度 
实际 从 $S6.6% 下 降 至 52% 。 

一 个 模型 的 主要 目的 之 一 就 是 在 先前 未 见 的 记录 上 做 出 一 致 的 预测 ， 不 能 达到 这 个 目标 
的 任何 规则 都 应 当 从 模型 中 去 除 。 许 多 数据 控 掘 工具 允许 用 户 手动 修 前 决策 树 。 这 是 一 个 有 
用 的 功能 ， 但 作为 一 个 选择 ， 我 们 期 待 能 够 出 现 自 动 的 基于 稳定 性 进行 修剪 的 数据 挖掘 软 
件 。 这 一 软件 需要 对 “验证 集结 果 的 分 布 看 起 来 不 同 于 训练 集结 果 的 分 布 ”这 样 问题 的 拒绝 
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拆 分 有 更 少 的 主观 判别 。 一 种 可 能 性 是 使 用 统计 学 显著 性 测试 ， 例 如 卡 方 检验 或 者 比例 差 
值 ， 当 置信 水 平 低 于 某 一 用 户 定 义 的 限度 时 ， 拆 分 将 被 修剪 ， 于 是 只 有 那些 在 验证 集 上 有 一 
定 置 信和 度 〈 比 如 说 99% ) 的 拆 分 会 保留 下 来 。 


到 期 未 付款 
>88,455 
906 44.4% 


图 6-8 不 稳定 的 拆 分 在 训练 集 和 验证 集 上 产生 非常 不 同 的 分 布 


警告 : 小 结 点 导致 大 问题 。 不 稳定 决策 树 模型 的 一 个 共同 原因 是 允许 结 点 有 太 少 的 
记录 ， 大 多 数 决策 树 工 具 允 许 用 户 设 定 一 个 最 小 结 点 大 小 帮 为 一 个 经 验 规则 ， 那 
些 大 约 少 于 100 条 训练 集 记 录 的 结 点 可 能 是 不 稳定 的 。 


6.5 从 树 中 提炼 规则 


当 决 策 树 主要 用 于 产生 得 分 时 ， 很 容易 忘记 决策 树 实际 上 是 一 系列 规则 的 集合 。 如 果 数 
据 挖掘 工作 的 目的 之 一 是 获得 对 问题 领域 的 了 解 ， 这 种 得 分 对 在 决策 树 中 把 非常 混乱 的 规则 
简化 为 小 的 更 可 理解 的 集合 是 有 用 的 。 

在 期 望 输出 是 一 系列 规则 集合 时 还 有 其 他 的 情形 。 在 Masterzizg Data Mining 一 书 中 ， 
我 们 描述 了 决策 树 对 一 项 工艺 流程 性 能 改善 问题 的 应 用 ， 也 就 是 防止 某 一 类 型 的 印刷 缺陷 。 
在 那个 案例 中 ， 数 据 挖 气 工 程 的 最 终 产 出 是 有 数 条 简单 规则 的 小 集合 ;这些 简 单 的 规则 可 以 
张贴 在 印刷 车 间 的 墙 上 。 

当 决 策 树 用 于 产生 得 分 时 ， 拥 有 太 量 数目 的 叶 是 有 利 的 ， 因 为 每 个 叶 会 产生 一 个 不 同 的 
得 分 。 当 目标 是 产生 规则 时 ， 规 则 越 少 越 好 。 幸 运 的 是 ,通常 可 以 把 复杂 的 树 分 解 为 小 的 规 
则 集 。 

在 这 个 方向 上 的 第 一 步 是 组 合 那些 造成 相同 分 类 的 叶 的 路 径 在 图 6-9 中 的 部 分 决策 树 
产生 如 下 规则 ; 

。 观 看 比赛 且 主 队 获 胜 ， 并 与 朋友 外 出 ， 则 喝 啤 酒 。 

。 观 看 比赛 且 主 队 获 胜 ， 并 坐 在 家 里 ， 则 喝 汽水 。 
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。 观 看 比赛 量 主 队 失 败 ， 并 与 朋友 外 出 ， 则 喝 啤 酒 。 
“观看 比赛 且 主 队 失败 ， 并 坐 在 家 里 ， 则 喝 牛 奶 。 


观看 比赛 吗 ? 
已 
天 是 
主队 获胜 ? 
必 
“ 否 是 
与 朋友 外 出 ? 与 朋友 外 出 ? 
污 
是 


玉 - 
图 6-9 多重 路 从 导致 相同 的 结论 


顶 言 喝 啤酒 的 两 个 规则 能 够 通过 删除 主队 是 胜 或 败 的 测试 而 组 合 起 来 。 该 测试 对 于 区 分 喝 
牛奶 和 哆 汽水 时 是 重要 的 ， 但 并 不 带 有 与 蝗 酒 消费 相关 的 信息 。 新 的 、 简 单一 些 的 规则 是 ; 

观看 比赛 并 与 朋友 外 出 ， 则 喝 啤 酒 。 

迄今 为 止 ， 没 有 争议 是 因为 没有 丢失 信息 ， 但 Cs 的 规则 发 生 器 在 走向 深入。 它 企 图 通 
过 删除 子 句 概 化 每 个 规则 ， 然 后 ， 使 用 早先 在 用 于 修剪 该 树 时 相同 的 斐 观 误差 率 假设 ， 把 新 
的 简洁 规则 的 预计 误差 率 和 原始 的 相 比较 。 常 常 ， 几 个 不 同 叶 的 规则 概 化 为 相同 的 规则 ， 于 
是 这 一 过 程 比 有 叶 的 决策 树 给 出 更 少 的 规则 。 

在 决策 树 中 ， 每 一 条 记录 恰恰 终结 于 一 个 叶 ， 因 此 每 条 记录 有 一 个 确定 的 类 。 然 而 在 规 
则 概 化 过 程 之 后 ， 或 许 有 并 非 互 不 相交 的 规则 和 不 被 任何 规则 覆盖 的 记录 。 当 有 多 于 一 条 规 
则 适用 时 ， 简 单 地 挑选 出 一 条 规则 能 够 解决 第 一 个 问题 ， 第 二 个 问题 需要 引信 一 个 分 配给 没 
有 被 任何 规则 覆盖 的 任何 记录 的 默认 类 别 ， 典 型 地 ， 最 经 常 出 现 的 类 别 被 选 作 默认 类 别 。 

一 旦 建立 起 概 化 规则 的 集合 ，Quinlan 的 C5 算法 把 每 个 类 的 规则 组 合 在 一 起 ， 并 把 对 
规则 集合 作为 一 个 整体 的 准确 度 似乎 贡献 不 大 的 那些 规则 排除 掉 ， 最 终结 果 是 获得 小 数目 的 
容易 理解 的 规则 。 


6.6 考虑 成 本 


在 迄今 为 止 的 讨论 中 ， 误 差 率 是 评价 规则 和 子 树 相互 匹配 的 惟一 度量 。 然 而 在 许多 应 用 
中 ， 误 分 类 的 成 本 在 类 与 类 之 间 经 常 大 不 相同 。 毫 无 疑问 ， 在 一 次 医疗 诊断 中 ， 假 阴性 比 假 
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阳性 可 能 更 有 害 。 通 过 深入 调查 ， 一 个 令 人 恺 慌 的 巴 氏 早期 癌变 探查 涂 片 结果 被 证 明 是 假 阳 
性 的 ， 远 比 癌症 未 被 发 现 要 好 。 我 们 可 以 用 误 分 类 概率 乘 以 权重 的 成 本 函数 表示 误 分 类 的 成 
本 ， 有 几 种 工具 人 允许 利用 这 样 的 成 本 函数 而 不 是 误差 郴 数 建立 决策 树 。 


6.7 决策 树 方法 的 进一步 修正 


尽管 在 多 数 的 商业 数据 挖掘 软件 包 中 找 不 到 ， 还 是 有 一 些 对 基本 决策 树 方法 的 重要 的 修 
正 值得 讨论 。 


6.7.1 每 次 使 用 多 于 一 个 字段 


多 数 决策 树 算法 测试 单一 变量 来 实施 每 次 拆 分 。 这 种 方法 可 能 因为 儿 个 原因 而 出 现 问 
题 ， 至 少 会 导致 形成 结 点 数目 过 多 的 树 。 多 余 的 结 点 令 人 关注 ， 是 因为 只 有 到 达 给 定 结 点 的 
训练 记录 可 用 于 推测 其 下 的 子 树 ， 每 个 结 点 包含 的 训练 样本 越 少 ， 最 后 得 到 的 模型 越 不 
稳定 。 

假定 我 们 对 年 龄 和 性 别 两 者 都 是 重 要 指示 器 的 条 件 感 兴趣 ， 如 果 根 结 点 是 按 年 龄 拆 分 
的 ， 那 么 每 个 子 结 点 只 包含 大 约 一 半 的 女士 。 如 果 初 始 的 拆 分 是 按 性 别 的 ， 那 么 每 个 子 结 点 
只 包含 大 约 一 半 的 老人 。 

现在 已 开发 出 若干 算法 ， 人 允许 多 重 属性 组 合 以 形成 拆 分 器 。 有 一 种 技术 可 以 形成 特征 的 
布尔 逻辑 乘积 以 降低 树 的 复杂 性 。 在 发 现形 成 最 好 拆 分 的 特征 之 后 ， 该 算法 就 寻找 与 最 初 先 
出 的 特征 组 合 能 够 最 大 程度 地 改善 拆 分 的 那 一 特征 。 只 要 在 结果 拆 分 中 继续 具有 统计 学 意义 
的 显著 改善 ， 特 征 就 会 继续 增加 。 

这 一 过 程 能 导致 形成 一 个 更 有 效 的 分 类 规则 。 举 例 来 说 ， 假 设 我 们 ， 按 照 投 票 活动 是 否 
获得 全 体 通过 来 分 类 投票 结果 。 为 了 简单 起 见 ， 考 虑 只 有 三 个 投票 者 的 情况 (简化 程度 只 是 
增加 投票 者 的 数目 )。 

表 6-1 包含 三 个 投票 的 所 有 可 能 组 合 ， 增 加 一 列 指示 结果 的 全 体 一 致 性 。 


表 6-1 三 个 投票 者 的 所 有 可 能 的 投票 组 合 


第 一 个 投票 者 第 二 个 投票 者 第 三 个 投票 者 全 体 一 致 吗 ? 
Nay Nay Nay 真 
Nay Nay Aye 假 
Nay Aye Nay 假 
Nay Aye Aye 假 
Aye Nay Nay 假 
Aye Nay Aye 假 
Aye Aye Nay 假 
Aye Aye Aye 真 


图 6-10 显示 了 可 以 完美 地 分 类 训练 数据 的 树 ， 它 需要 五 个 内 部 拆 分 结 点 。 不 用 关心 这 
棵 树 是 如 何 创 建 的 ， 因 为 对 我 们 而 言 那 不 重 要 。 

人 允许 使 用 逻辑 和 函数 组 合 不 同 特征 ， 形 成 逻辑 连接 可 以 产生 图 6-11 中 简单 得 多 的 树 。 
第 二 棵 树 阐明 了 使 用 字段 组 合 带 来 的 另 一 个 潜在 好 处 ， 该 树 现在 较 能 准确 表达 类 全 体 一 致 性 
的 概念 :“ 当 所 有 投票 者 上 渴 同 时 ， 决 策 是 全 体 一 致 的 。” 
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图 6-10 “一致 性 函数 按 单 个 字段 拆 分 的 最 佳 二 元 树 


图 6-11 组 合 特征 简化 了 定义 一 致 性 的 树 


一 棵 一 看 就 懂 的 树 ， 被 机 器 学 习 研究 者 表述 为 具有 好 的 “思维 适应 ”。 在 机 器 学 习 领 域 
的 一 些 研究 者 重视 这 一 观念 ,. 但 它 似乎 是 一 个 他 们 围绕 其 建立 研究 的 微小 的 、 结 构 良 好 问题 
的 人 工 制品 。 在 现实 世界 中 ， 如 果 一 个 分 类 任务 如 此 简单 ， 以 至 于 你 能 围绕 代表 它 的 整个 决 
策 树 得 到 你 的 主意 ， 大 概 就 不 需要 浪费 时 间 使 用 强 有 力 的 数据 挖掘 工具 去 发 现 它 了 。 我 们 相 
信 理 解 通 向 任何 特定 叶 的 规则 的 能 力 是 很 重要 的 ， 相 反 ， 在 实验 室 之 外 ， 盯 一 眼 就 能 说 明 整 
个 决策 树 的 能 力 既 不 重要 ， 也 似乎 不 太 可 能 。 


6.7.2 倾斜 超 平面 


分 类 问题 有 时 可 以 用 几何 术语 表示 ， 这 种 思考 方法 对 于 所 有 字段 具有 连续 变量 的 数据 集 
尤其 有 用 。 在 这 一 思考 方式 中 ， 每 条 记录 是 在 多 维 空间 中 的 一 个 点 ， 每 个 字段 代表 记录 在 该 

空间 中 沿 着 某 个 轴 的 位 置 。 决 策 树 是 把 空间 切 分 为 区 域 的 一 种 方式 ， 每 个 区 域 被 标记 为 一 个 
类 ,任何 落 入 其 中 一 个 区 域 的 新 记录 被 归 人 相应 的 类 。 
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在 每 个 结 点 上 测试 单个 字段 值 的 传统 决策 树 只 能 形成 给 形 (rectangular ) 区 域 。 在 一 个 
二 维 空 间 内 ， 公 式 “ 工 小 于 某 一 常量 ”的 测试 形成 以 垂直 于 Y 轴 上 且 平 行 于 X 轴 的 直线 为 边 
界 的 区 域 。 不 同 的 常量 值 会 使 该 直线 向 上 和 向 下 移动 ， 但 该 直线 保持 水 平 。 类 似 地 ， 在 一 个 
较 高 维 的 空间 内 ， 对 单个 字段 进行 的 测试 定义 了 一 个 “垂直 于 代表 测试 中 使 用 字段 的 轴 ， 并 
且 平 行 于 所 有 其 他 轴 的 超 平 面 "。 在 二 维 空间 内 ， 只 有 水 平 线 和 垂直 线 起 作用 ， 产 生 的 区 域 
是 矩形 的 ; 在 三 维 空间 内 ， 相 应 的 形状 是 长 方 体 ; 在 多 维 空间 内 ， 就 是 超 矩 形 。 

问题 是 有 些 事物 并 不 恰好 适应 抢 形 方 格 。 图 6-12 说 明了 这 个 问题 : 两 个 区 域 实际 是 按 
对 角 线 划分 的 ， 它 需要 一 棵 很 深 的 树 以 产生 足够 的 矩形 来 近似 地 表示 。 


图 6-12 左上 和 右 下 象限 很 容易 分 类 ， 而 其 他 两 个 象限 必须 在 区 域 之 间 
划分 为 许多 小 的 方 格 作为 近似 边界 


在 这 种 情况 下 ， 正 确 的 解决 办 法 很 容易 发 现 ， 那 就 是 允许 把 要 考虑 的 属性 进行 线形 组 
合 ， 一 些 软件 包 企图 通过 基于 字段 值 的 加 权 和 拆 分 来 倾斜 超 平面 。 通 常 有 多 种 疏 山 方法 可 用 
于 选择 权重 。 

当然 ， 即 使 允许 取 对 角 线 ， 也 很 容易 遇 到 那些 不 易 被 捕捉 到 的 区 域 。 这 种 区 域 可 能 有 杰 
曲 边界 ， 并 且 字 段 可 能 不 得 不 用 更 复杂 的 方式 组 合 起 来 〈 例 如 长 乘 宽 得 到 面积 ) 等 。 在 建树 
过 程 中 ， 除 了 给 建树 过 程 仔细 选择 输入 字段 ， 在 必要 时 创建 用 于 捕捉 被 该 领域 专家 已 知 或 可 
疑 的 关系 的 衔 生字 段 以 外 ， 没 有 什么 可 以 代替 的 方法 。 这 些 入 生字 段 可 以 是 若干 其 他 字段 的 
函数 ， 像 自动 组 合 字段 倾斜 超 平面 一 样 ， 手 工 插入 的 衍生 字段 针对 同样 的 目的 。 


6.7.3 神经 树 
在 每 个 结 点 组 合 许多 字段 输入 的 一 种 方式 是 使 每 个 结 点 包含 一 个 小 的 神经 网 络 。 对 于 用 


ee 和 
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矩形 区 域 不 能 很 好 描述 真实 分 类 形状 的 领域 ， 神 经 树 能 产生 更 加 精确 的 分 类 ， 而 且 比 纯 的 神 
经 网 络 能 更 快 地 进行 训练 并 给 出 得 分 。 

从 用 户 的 观点 看 ， 与 决策 树 的 变 体 相 比 ， 这 一 杂 化 技术 与 神经 网 络 变 体 有 更 多 的 共同 
点 。 因 为 它 与 其 他 神经 网 络 技术 相同 ， 没 有 能 力 解释 做 出 的 决策 。 该 树 仍 旧 会 产生 规则 ， 但 
都 是 按 F (zz ，zw2z2，zm3z3，…) 委 六 的 形式 ， 其 中 下 是 神经 网 络 使 用 的 组 合 函 数 。 
这 种 规则 对 神经 网 络 软件 比 对 人 更 有 意义 。 


6.7.4 使 用 树 分 段 回 归 


另 一 个 把 树 和 其 他 建 模 方法 组 合 起 来 的 例子 是 分 段 线性 回归 的 形式 ， 在 其 中 ,决策 树 中 
的 每 个 拆 分 被 选中 的 目的 ， 就 是 使 得 在 该 结 点 上 数据 的 简单 回归 模型 的 误差 最 小 化 ， 同 样 的 
方法 可 以 应 用 于 分 类 型 目标 变量 的 逻辑 回归 。 


6.8 决策 树 的 替代 表示 法 


传统 的 树 图 形 是 表示 决策 树 实际 结构 的 很 有 效 方式 。 当 焦点 更 关注 于 结 点 的 相对 大 小 和 
集中 度 时 ， 其 他 表示 法 有 时 更 有 用 。 


6.8.1 方 格 图 


尽管 “ 树 图 ”和 “二 十 问题 ”类 推 对 于 决策 树 方法 中 某 些 性 质 的 形象 化 是 有 帮助 的 ， 但 
在 某 些 情 形 下 ， 方 格 图 (box diagram) 可 能 更 加 直观 。 图 6-13 显示 了 决策 树 的 方 格 图 表示 
法 ， 它 试图 基于 年 龄 和 最 近 看 过 的 电影 把 人 们 分 类 为 男性 或 女性 ， 该 图 可 视 为 一 种 二 维 散 点 
图 的 藤 套 集合 。 


图 6-13 ”用 方 格 图 表示 决策 树 。 阴 影 与 该 方 格 的 纯度 成 正比 ; 
大 小 与 其 中 的 记录 数目 成 正比 
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在 决策 树 的 根 结 点 上 ， 最 初 三 路 拆 分 是 基于 被 调查 者 回答 的 最 近 看 过 的 电影 归 人 三 组 中 
的 哪 一 个 进行 拆 分 的 。 在 该 图 最 外 面 的 方 格 中 ， 水 平 轴 就 代表 那个 字段 。 最 外 面 的 方 格 被 分 
成 小 块 ， 每 一 小 块 代表 树 中 下 一 层 的 某 个 结 点 。 每 一 小 块 的 大 小 与 落 入 其 中 的 记录 数 成 正 
比 。 其 次 ， 每 个 方 格 的 垂直 轴 用 于 表示 作为 那个 结 点 下 一 拆 分 器 的 字段 。 一 般 对 每 个 方 格 而 
言 ， 这 将 是 一 个 不 同 的 字段 。 

现在 有 一 个 新 的 方 格 集合 ， 其 中 每 个 方 格 代表 树 的 第 三 层 的 一 个 结 点 。 继 续 这 一 过 程 ， 
一 直 把 方 格 分 割 到 树 的 每 个 叶 ， 使 它们 有 自己 的 方 格 。 由 于 决策 树 深 度 常常 并 不 一 致 ， 所 以 
一 些 方 格 可 以 比 其 他 方 格 更 频繁 地 被 再 分 。 在 一 个 二 维 图 表 中 ， 方 格 图 更 容易 表示 分 类 规 
则 ， 因 为 这 些 规 则 依赖 于 图 中 任意 一 个 变量 的 数值 。 

由 此 得 出 的 图 很 有 表现 力 。 当 我 们 向 表格 中 投掷 记录 时 ， 它 们 落 入 特定 的 方 格 并 归 人 相 
应 分 类 。 方 格 图 允许 我 们 在 若干 层次 的 详细 程度 上 观察 数据 。 扫 一 眼 图 6-13 就 可 以 看 出 左 
侧 底部 包含 了 高 集中 度 的 男性 。 

更 仔细 地 看 ， 我 们 发 现 一 些 方 格 在 分 类 或 收集 大 量 记录 方面 似乎 做 得 特别 好 。 按 照 这 种 
观察 ， 把 决策 树 看 做 围绕 相似 点 的 群 组 绘制 方 格 的 一 种 方法 就 是 很 自然 的 。 所 有 在 特定 方 格 
中 的 点 按 相 同 的 方式 分 类 ， 因 为 它们 都 满足 定义 那个 方 格 的 规则 。 这 与 通过 画 直线 或 椭圆 曲 
线 穿 过 数据 间隔 试图 把 数据 分 割 为 类 的 传统 统计 学 分 类 方法 〈 如 线性 、 对 数 和 二 次 方程 式 判 
别 ) 形成 鲜明 的 对 比 。 两 类 方法 的 基本 区 别 是 : 当 一 条 记录 有 若干 不 同 的 方式 划 为 目标 类 的 
一 部 分 时 ， 使 用 单条 线 来 发 现 类 别 之 间 边 界 的 统计 学 方法 是 软弱 无 力 的 。 图 6-14 使 用 两 种 
慌 龙 阐明 了 这 一 点 ， 决 策 树 〈 表 示 为 方 格 图 ) 成 功 地 从 三 角 慌 龙 中 独立 出 剑 龙 。 


图 6-14 ”一 条 简单 的 直线 或 曲线 常常 不 能 分 割 不 同 的 区 域 ， 而 决策 树 做 得 更 好 
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例如 ， 在 信用 卡 行业 中 ， 客 户 可 以 有 若干 方式 给 公司 带 来 利润 : 一 些 有 利 可 图 的 客户 具 
有 很 低 的 交易 率 ， 但 一 直 保持 没有 拖欠 的 高 周转 余额 ; 另 一 些 虽 然 每 个 月 全 部 花 光 他 们 账户 
中 的 所 有 余额 ， 但 仍然 有 利 可 图 ， 因 为 他 们 产生 了 高 交易 量 ; 还 有 其 他 一 些 有 很 少 的 几 笔 交 
易 ， 但 偶尔 进行 大 额 采 购并 花 几 个 月 付 清 欠 款 。 两 个 非常 相 异 的 客户 也 许 带 来 同等 利润 。 决 
策 树 能 够 发 现 每 个 单独 的 群 组 ， 对 它 做 出 标记 ， 并 通过 提供 方 格 本 身 的 描述 提示 每 个 群 组 收 
益 的 原因 。 


6.8.2 树 年 轮 图 


来 自 SAS 研究 所 的 Enterprise Miner 产品 使 用 了 决策 树 的 另 一 种 巧妙 表示 方法 。 图 6-15 
中 的 图 表 看 起 来 像 是 树 已 被 砍 倒 ， 我 们 来 查看 树桩 。 


图 6-15 用 SAS Enterprise Miner 做 出 的 树 年 轮 图 汇总 了 树 的 不 同 层 


图 中 央 的 圆圈 表示 做 出 任何 拆 分 之 前 的 根 结 点 。 从 中 央 向 外 移动 ， 每 个 同心 圆 环 表示 树 
的 一 个 新 的 层 ， 最 接近 中 央 的 环 表示 根 结 点 拆 分。 两 条 路 径 之 间 的 弧 长 与 其 中 的 记录 数目 成 
正比 ， 阴 影 代 表 该 结 点 的 纯度 。 在 本 图 所 示 模 型 中 的 首次 拆 分 是 相当 不 均衡 的 。 它 把 记录 划 
分 为 两 个 群 组 一 一 集中 度 与 父 总 体 没 有 多 大 差别 的 一 个 大 群 组 ， 加 上 一 个 具有 很 高 的 目标 类 
集中 度 的 小 群 组 。 在 下 一 层 上 ， 这 一 方块 点 再 次 拆 分 ， 那 个 用 细 的 、 一 路 延伸 到 图 表 最 外 层 
环 的 暗 鹿 形 区 表示 的 一 个 分 支 就 是 一 个 叶 结 点 。 

该 年 轮 图 一 目 了 然 地 显示 了 树 的 深度 和 复杂 性 ， 并 指示 出 在 目标 类 上 有 高 集中 度 的 位 
置 。 它 没有 直接 显示 定义 这 些 结 点 的 规则 ， 用 户 点 击 图 表 的 特定 区 域 时 ， 该 软件 会 把 这 些 规 
则 展现 出 来 。 
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6.9 实际 应 用 中 的 决策 树 


决策 树 能 够 应 用 于 许多 不 同 的 情形 : 

。 探 查 大 的 数据 集 以 挑选 出 有 用 的 变量 ; 

“。 预测 工业 过 程 中 重要 变量 的 未 来 状态 ; 

。 为 推荐 系统 形成 指导 性 的 客户 簇 。 

本 节 包 含 了 用 于 以 上 这 些 情 形 的 决策 树 的 示例 。 


6.9.1 决策 树 作为 数据 探查 工具 


在 数据 挖掘 项 目的 数据 探查 阶段 ， 要 挑选 出 那些 对 预测 特定 目标 可 能 重要 的 变量 ， 决 策 
树 是 一 个 有 用 的 工具 。 我 们 的 一 个 报 业 客户 ，T7e Boszonr Goge ， 对 于 基于 多 种 人 口 统计 学 
和 地 理 特征 ， 评 佑 一 个 城镇 的 期 望 家 庭 投递 发 行 额 水 平 感 兴趣 。 有 了 这 样 的 评估 ， 在 其 他 事 
务 中 ， 他 们 将 能 对 准 那些 实际 发 行 额 低 于 期 望 发 行 额 的 具有 未 使 用 潜能 的 城镇 。 最 终 的 模型 
将 是 一 个 基于 一 些 变量 的 回归 方程 式 。 但 采用 哪些 变量 呢 ? 准确 地 说 ， 该 回归 将 试图 评估 哪 
些 内容 ? 在 建立 该 回归 模型 之 前 ， 我 们 利用 决策 树 帮助 探查 这 些 问 题 。 

尽管 该 报纸 最 终 兴 趣 是 预测 给 定 城市 或 城镇 的 订阅 家 庭 实际 数目 ， 但 对 于 一 个 回归 模 
型 ， 该 数目 并 不 能 成 为 好 的 目标 ， 因 为 城镇 和 城市 在 大 小 上 相差 悬殊 。 把 建 模 力量 浪费 在 发 
现 大 城镇 比 小 城镇 有 更 多 的 订户 是 毫 无 用 处 的 。 一 个 更 好 的 目标 是 穿 透 度 (penetra- 
tion) 一 一 订阅 该 报纸 的 家 庭 比 例 ， 这 一 数字 简单 乘 以 一 个 城镇 中 的 家 庭 数 就 可 生成 订户 总 
数 估计 。 还 要 考虑 到 ， 城 镇 大 小 因素 产生 了 一 个 数值 范围 从 0 到 略 小 于 1 的 目标 变量 。 

下 一 步 是 从 数 以 百 计 的 城镇 特征 中 计算 出 ， 哪 些 因 素 可 以 把 具有 高 穿 透 度 的 城镇 (“ 好 
的 ”城镇 ) 从 那些 具有 低 穿 透 度 的 城镇 〈“ 差 的 ”城镇 ) 分 离开 来 。 我 们 的 方法 是 建立 具有 
二 元 “好 / 差 ” 目 标 变 量 的 决策 树 。 这 涉及 按照 家 庭 订阅 穿 透 度 排 序 这 些 城镇 ， 并 把 顶部 三 
分 之 一 标记 为 “好 的 "， 把 底部 的 三 分 之 一 标记 为 “ 差 的 ”>， 而 中 间 三 分 之 一 是 好 是 差 不 明 
朗 一 一 不 计 和 人 训练 集 。 图 6-16 中 的 屏幕 快照 显示 了 结果 树 之 一 的 顶端 几 层 。 


这 


和 [da Homme woa 从 je 六 034 移 ， 所 咎 to pop Cid Ralioog 有 
国 repuaten Age 二 .28e0 的 了 


图 6-16 ”一 个 把 好 的 城镇 与 差 的 城镇 分 离开 来 的 决策 树 ， 正 如 Insightful Miner 工具 所 示 
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该 树 显示 中 值 住宅 价值 是 最 好 的 首次 拆 分 ， 中 值 住宅 价值 (在 该 郡 中 具有 一 些 最 昂贵 的 
房屋 的 区 域 ) 小 于 226 000 美元 的 城镇 对 于 这 份 报纸 是 不 良 的 潜在 客户 。 下 一 层 的 拆 分 更 令 
人 人 恢 诗 ， 为 拆 分 选中 的 变量 是 把 城镇 中 的 订户 与 该 城镇 人 口 整体 相 比较 得 到 的 一 族 衔 生变 量 
(derived variable) 中 的 一 个 。 按 照 家 庭 投递 穿 透 度 ， 订 户 与 总 人 口 情况 相近 的 城镇 比 那些 订 
户 远离 均值 的 城镇 更 好 。 可 以 把 好 的 与 差 的 城镇 区 分 开 来 的 其 他 重要 变量 ， 包 括 学 校 就 读 的 
平均 年 数 、 在 蓝领 职业 中 人 吕 的 百分比 和 在 高 级 职业 中 人 口 的 百分比 ， 所 有 这 些 最 终 都 被 作 
为 该 回归 模型 的 输入 值 。 

我 们 曾经 期 望 会 有 一 些 其 他 重要 的 变量 ， 例 如 离 波士顿 的 距离 和 家 庭 收 入 ， 结 果 被 证 明 
是 不 太 有 力 的 。 一 旦 决策 树 把 焦点 集中 于 一 个 要 么 包含 进来 ， 要 么 不 被 使 用 的 变量 ， 其 中 原 
因 常 常 稍稍 一 想 就 清楚 。 例 如 ， 与 波士顿 距离 的 问题 是 ， 当 一 个 人 首次 驾车 外 出 到 城郊 时 ， 
家 庭 穿 透 度 随 着 离 波 士 顿 的 距离 上 升 ; 然而 过 不 了 多 久 ， 当 人 们 远离 波士顿 ， 不 再 那么 多 地 
关心 那个 地 方 发 生 的 事情 时 ， 离 波士顿 的 距离 与 穿 透 度 变 为 负 相 关 。 住 宅 价格 是 一 个 好 的 预 
测 器 ， 因 为 它 的 分 布 类 似 于 目标 变量 的 分 布 ， 在 最 初 几 英里 增加 随后 下 降 。 决 策 树 不 仅 指导 
我 们 思考 什么 ， 也 可 指导 我 们 使 用 哪些 变量 。 


6.9.2 把 决策 树 方法 应 用 于 顺序 事件 


预测 未 来 是 数据 挖 所 最 重要 的 应 用 之 一 。 在 历史 数据 中 分 析 趋 势 ， 以 便 预测 未 来 行为 ， 
这 种 任务 在 我 们 已 经 测试 的 每 一 个 领域 经 常 重复 出 现 。 

我 们 的 客户 之 一 ， 一 家 大 银行 ， 为 了 找 准 在 其 支票 账户 中 的 预警 信和 号， 仔细 考察 了 客户 
的 详细 交易 数据 。 随 时 跟踪 自动 柜员 机 提 款 、 直 接 工 资 单 存款 、 余 额 查 询 、 直 接 柜台 存 取 以 
及 数 以 百 计 客 户 流失 的 其 他 交易 类 型 和 客户 属性 ， 以 发 现 那些 能 让 银行 识别 出 顾客 忠诚 度 开 
始 变 弱 但 仍 有 足够 时 间 采 取 正 确 行动 进行 挽回 的 特征 。 

另 一 个 客户 ， 一 家 内 燃 机 制造 商 ， 使 用 SPSS 的 Clementine 数据 挖 据 套 件 中 的 决策 树 组 
件 ， 以 卡车 登记 的 历史 数据 为 基础 ， 预 测 内 燃 机 销售 ， 目 的 是 识别 出 那些 可 能 准备 对 其 大 装 
备 的 发 动机 进行 更 换 的 人 们 。 

销售 、 利 润 、 失 效 方式 、 流 行 趋势 、 物 品 价格 、 运 行 湿度、 利率 、 呼 叫 音量 、 响 应 率 和 
返回 率 ， 所 有 这 些 都 是 人 们 试图 预测 的 内 容 。 在 某 些 领域 ， 尤 其 是 经 济 学 领域 ， 时 间 序 列 数 
据 的 分 析 是 统计 分 析 的 当务之急， 因而 你 可 能 指望 存在 一 系列 现成 的 可 用 技术 ， 能 够 用 于 时 
间 顺 序数 据 上 的 预言 性 数据 挖掘 ， 不 幸 的 是 ， 实 际 情况 并 不 是 这 样 的 。 

首先 ， 许 多 其 他 领域 的 时 间 序 列 分 析 工 作 集 中 于 分 析 单 个 变量 中 的 模式 ， 例 如 孤立 的 美 
元 竞 日 元 的 汇率 或 失业 率 ; 公司 的 数据 仓库 有 可 能 包含 展示 周期 模式 的 数据 。 当 然 ， 支 票 账 
户 中 的 平均 日 余额 反映 出 租金 通常 是 在 每 月 初 支付 的 ， 并 且 许 多 人 是 在 星期 五 支付 租金 。 但 
是 ， 在 极 大 程度 上 ， 这 些 种 类 的 模式 并 不 令 人 感 兴趣 ， 因 为 它们 婚 不 是 意外 的 又 不 是 可 采取 
行动 的 。 

在 商业 数据 挖掘 中 ， 我 们 更 关注 的 是 ， 如 何 把 大 量 数目 的 单独 变量 组 合 起 来 ， 以 预测 某 
些 未 来 的 结果 。 第 9 章 会 讨论 时 间 如 何 被 整合 到 关联 规则 (association rule) 中 以 便 发 现 序 
列 模式 〈sequential pattern)。 决 策 树 方法 在 这 一 领域 也 被 成 功 地 应 用 ， 但 它 一 般 需 要 结合 
势 信息 ， 通 过 包括 诸如 明确 表示 随时 间 改 变 的 变化 差 值 和 比率 等 字段 来 丰富 数据 。 第 17 章 
中 会 更 详尽 地 讨论 这 些 数据 准备 问题 。 下 一 小 节 描 述 了 一 个 应 用 ， 即 自 动产 生 这 些 隐 生字 
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段 ， 并 利用 它们 建立 一 个 基于 树 的 模拟 器 ， 通 过 该 模拟 器 投影 出 一 个 未 来 的 完整 数据 库 。 
6.9.3 模拟 未 来 


这 一 讨论 很 大 程度 上 基于 Marc Goodman 的 讨论 和 他 的 1995 年 关于 一 项 称 为 投射 可 视 
化 技术 的 博士 论文 。 投 射 可 视 化 使 用 一 个 历史 数据 快照 的 数据 库 来 开发 模拟 器 ， 运 行 该 模拟 
器 能 够 投射 出 所 有 变量 将 来 的 数值 。 最 后 的 结果 是 得 到 一 个 扩展 的 数据 库 ， 其 中 的 新 记录 具 
有 和 原始 记录 完全 相同 的 字段 ， 但 其 值 是 由 该 模拟 器 给 出 的 ， 而 不 是 观察 得 到 的 ， 这 种 方法 
在 后 面 的 “使 用 决策 树 用 于 投射 可 视 化 ”部 分 会 更 详细 地 描述 。 
案例 研究 : 咖啡 烘 烤 工厂 的 过 程控 制 
瞧 梨 ， 世 界 上 最 大 的 食品 和 饮料 公司 之 一 ， 使 用 大 量 的 连续 进 料 哪 啡 烘 烤 机 生产 多 种 电 
啡 产品 ， 包 括 Nescafe Granules、Gold Blend、Gold Blend Decaf 和 Blend37 等 。 其 每 一 种 产品 
有 一 个 “配方 "， 规 定 了 一 系列 烘 烤 机 变量 的 目标 数值 ， 例 如 在 各 种 排 气 点 的 空气 温度 、 各 
种 风扇 的 速度 、 气 体 燃 烧 的 比率 、 使 咖啡 豆 淳 火 要 导 人 的 水 量 和 各 种 风门 片 和 阀门 的 位 置 。 
当 烘 烤 咖 上 啡 时 ， 有 许多 情况 可 能 使 事情 变 灶 ， 从 烘 烤 成 色 太 浅 到 代价 很 大 并 损害 烘 烤 机 的 起 
火 ， 这 些 情况 都 有 可 能 发 生 。 一 批 烘 烤 不 好 的 咖啡 会 导致 付出 很 大 的 代价 ， 而 对 设备 的 损害 
代价 则 更 加 昂贵 。 
为 帮助 操作 者 保持 烘 烤 机 恰当 地 运转 ， 需 要 从 大 约 60 个 传感器 中 收集 数据 ， 每 30 秒 
钟 ， 这 一 数据 连同 控制 信息 被 写 人 日 志 ， 并 以 图 形 形 式 表 示 ， 使 其 对 操作 者 直观 可 用 。 这 里 
描述 的 工程 发 生 在 英国 约克 郡 的 一 家 省 梨 研 究 实验 室 ， 省 梨 利 用 投射 可 视 化 ， 以 传感器 日 志 
为 基础 ， 建 立 了 一 个 嘟 啡 烘 烤 机 模拟 器 。 
模拟 器 的 目标 
省 梨 发 现 咖 罪 烘 烤 机 模拟 器 能 以 若干 方式 改善 其 生产 过 程 。 
。 通 过 使 用 模拟 器 来 实验 新 的 配方 ， 不 用 中 断 生产 就 能 够 评价 大 量 新 配方 。 而 且 ， 能 够 
提前 排除 可 能 会 导致 烘 烤 机 着 火 或 其 他 损坏 性 的 配方 。 
。 模拟 器 能 够 用 于 训练 新 操作 者 ， 并 模拟 他 们 可 能 遇 到 的 常规 问题 ， 教 给 他 们 相应 的 解 
决 方案 。 使 用 模拟 器 ， 操 作者 可 以 尝试 用 不 同 的 方法 来 解决 问题 。 
“模拟 器 能 够 跟踪 实际 烘 烤 机 的 操作 ， 并 向 未 来 投影 几 分 钟 。 当 模拟 器 遇 到 一 个 问题 ， 
能 够 给 出 警报 ， 操 作者 有 足够 的 时 间 解 决 麻烦 。 


使 用 决策 树 进 行 投射 可 视 化 

套用 机 器 学 习 领域 的 Goodman 术语 ， 每 一 个 瞬间 的 快照 被 称 为 一 个 情形 。 情 形 由 属性 
组 成 ， 属 性 就 是 情形 记录 中 的 字段 。 属 性 可 以 是 任何 数据 类 型 ， 可 以 是 连续 型 也 可 以 是 分 类 
型 。 属 性 用 于 形成 特征 ， 特 征 是 用 多 种 方式 组 合 起 来 形成 决策 树 内 在 结 点 的 布尔 型 (是 /和 否 ) 
变量 。 例 如 ， 如 果 数 据 库 包含 一 个 数值 型 的 薪金 字段 ， 这 是 一 个 连续 属性 ， 那 么 这 可 能 导致 
创建 一 个 诸如 薪金 <38 500 的 特征 。 

对 于 像 薪金 这 样 的 连续 变量 ， 要 为 训练 集中 观察 到 的 每 个 值 产生 “属性 委 值 ”这 种 形式 
的 特征 ， 这 意味 着 可 能 存在 与 训练 集中 情形 一 样 多 的 衍生 于 属性 的 特征 。 基 于 等 同性 或 集合 
成 员 的 特征 就 会 按照 符号 属性 和 诸如 人 名 或 场所 的 文字 属性 生成 。 

属性 也 可 以 用 于 生成 解释 ， 这 些 属性 指 的 是 衍生 于 给 定 属性 的 新 属性 ， 而 解释 通常 反映 
该 领域 的 知识 以 及 哪 种 关系 可 能 是 重要 的 。 在 当前 的 问题 中 ， 发 现 属性 的 值 从 一 个 时 段 到 另 


免费 领取 更 多 资源 V: 3446034937 


沁 履 家 IT41 


一 个 时 段 ， 其 数量 、 方 向 和 变化 率 随 时 间 变 化 的 模式 可 能 是 重要 的 。 因 此 ， 对 每 个 数值 属 
性 ， 软 件 自动 生成 对 于 属性 差异 以 及 属性 首 个 离散 值 和 第 二 个 导出 值 的 解释 。 

然而 ， 一 般 而 言 ， 用 户 会 提供 解释 。 例 如 ， 在 一 个 信用 风险 模型 中 ， 债 务 与 收入 的 比率 
可 能 会 比 它 们 的 大 小 更 具有 预言 性 。 利 用 这 一 知识 ， 我 们 可 能 添加 一 个 关于 这 两 个 属性 比率 
的 解释 。 通 常用 户 提供 的 解释 以 程序 不 能 自动 给 出 的 方式 与 属性 组 合 ， 具 体 的 例子 包括 从 续 
度 和 经 度 变 化 计算 大 圆周 距离 ， 或 者 利用 三 种 线性 度量 的 乘积 得 到 体积 。 


从 一 个 情形 到 下 一 个 情形 

投射 可 视 化 背后 的 中 心思 想 是 利用 历史 的 情形 产生 一 套 规 则 ， 可 以 用 于 从 情形 刀 生 成 
情形 +1。 当 这 一 模型 应 用 于 最 终 的 观察 情形 时 ， 它 产生 一 个 新 的 投射 情形 。 要 投射 出 将 
来 的 多 于 一 个 时 间 步 长 的 情形 ， 我 们 可 以 继续 将 该 模型 应 用 于 最 近 创建 的 情形 。 当 然 ， 随 着 
该 模拟 器 运行 越 来 越 多 的 时 间 步 长 ， 投 射出 的 数值 置信 度 会 下 降 。 

下 图 显示 了 一 个 单一 属性 的 投影 方式 ， 使 用 以 前 一 个 情形 为 基础 从 所 有 其 他 属性 和 解 流 
生成 特征 的 决策 树 。 在 训练 过 程 中 ， 对 每 一 属性 生成 一 个 独立 的 决策 树 。 整 个 森林 被 评价 ， 
以 便 模 拟 器 从 一 个 步 长 移 向 下 一 个 。 


快照 使 用 决策 树 创 建 下 一 时 间 快 照 


烘 烤 机 模拟 器 的 评价 

该 模拟 器 是 使 用 包含 34 000 个 情形 的 训练 集 建 立 的 ， 然 后 该 模拟 器 用 包含 不 属于 训练 
集 组 成 部 分 的 大 约 40 000 个 其 他 情形 的 测试 集 进行 评价 。 对 于 测试 集中 的 每 个 情形 ， 模 拟 
器 产生 深入 未 来 60 步 长 的 投射 快照 。 在 每 一 步 长 上 ， 所 有 变量 的 投射 数值 都 与 实际 值 进 行 
比较 。 正 如 预期 的 那样 ， 误 差 大 小 随时 间 增 加 。 例 如 ， 投 射 的 每 分 钟 产 品 温度 的 误差 率 是 
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2743 ， 但 即使 投射 深入 未 来 30 分 钟 ， 该 模拟 器 的 工作 也 比 随意 猜测 好 很 多 。 

投射 趋势 的 结果 证 明 ， 除 了 最 有 经 验 的 少数 操作 者 外 ， 烘 烤 机 模拟 器 比 所 有 其 他 操作 者 
都 更 准确 ， 当 然 ， 即 使 最 有 经 验 的 操作 者 ， 有 了 模拟 器 的 帮助 也 能 做 得 更 好 。 操 作者 乐于 使 
用 该 模拟 器 ， 并 报告 说 它 给 了 他 们 对 正确 行动 的 新 的 洞察 力 。 


6.10 小 结 


决策 树 方法 对 数据 探查 、 分 类 和 评分 等 方法 具有 广泛 的 适应 性 。 它 们 也 能 用 于 估计 连续 
值 ， 尽 管 很 少 是 首选 方案 ， 因 为 决策 树 产 生 “ 成 块 的 ”估计 一 一 到 达 同 一 个 叶 的 所 有 记录 被 
赋 耶 相同 的 评 佑 值 。 当 数据 挖掘 任务 是 分 类 记录 或 预测 离散 结果 时 ， 决 策 树 是 首选 对 象 。 当 
你 的 目标 是 把 每 个 记录 分 类 到 少数 宽泛 范畴 之 一 时 ， 可 以 选择 使 用 决策 树 。 理 论 上 ， 决 策 树 
能 够 把 记录 分 配 到 任意 数目 的 类 中 ， 但 在 每 个 类 的 训练 样本 数目 变 小 时 它们 容易 出 错 ， 这 种 
情况 可 能 在 具有 许多 层 和 . (或 ) 每 个 结 点 具有 许多 分 支 的 树 中 更 容易 发 生 。 在 许多 商业 情形 
中 ， 问 题 会 自然 分 解 到 诸如 “响应 者 / 非 响应 者 ”或 者 “好 / 荆 ” 的 二 元 分 类 ， 因 此 在 实践 中 
这 不 是 大 问题 。 

当 目 标 是 生成 可 理解 的 和 可 解释 的 规则 时 ， 决 策 树 也 是 一 个 很 自然 的 选择 。 决 策 树 技术 
最 强大 的 功能 之 一 是 ， 可 以 产生 能 被 翻译 成 可 理解 的 自然 语言 或 SQL 的 能 力 ， 即 便 在 复杂 
的 决策 树 中 ， 通 常 也 非常 容易 通过 树 追 踪 任 何 一 条 路 径 以 到 达 某 个 特定 的 叶 ， 因 此 它 对 任何 
特定 分 类 或 预测 的 解释 相对 比较 简明 。 

决策 树 比 许多 其 他 技术 需要 的 数据 准备 更 少 ， 因 为 它们 既 擅 长 处 理 连 续 型 变量 ， 也 擅长 
处 理 分 类 型 变量 。 作 为 神经 网 络 和 统计 学 技术 难题 的 分 类 变量 ， 通 过 形成 不 同类 别 群 组 加 以 
拆 分 ， 而 连续 变量 通过 划分 值 的 范围 进行 拆 分 。 因 为 决策 树 不 使 用 数值 变量 的 实际 数值 ， 因 
此 它们 对 离 群 值 和 不 均匀 的 分 布 不 敏感 。 这 些 强 有 力 的 适应 性 是 以 丢弃 一 些 在 训练 集中 有 用 
的 信息 为 代价 的 ， 因 此 调试 良好 的 神经 网 络 或 回归 模型 常常 比 决策 树 更 能 利用 好 相同 的 字 
段 。 正 因为 这 一 原因 ， 决 策 树 经 常用 于 挑选 出 一 组 好 的 变量 用 作 另 一 建 模 技 术 的 输入 变量 。 
面向 时 间 的 数据 确实 需要 大 量 数据 准备 工作 。 时 间 序 列 数据 必须 被 强化 ， 这 样 趋势 和 序列 模 
式 才 会 变 得 清晰 可 见 。 

决策 树 会 给 出 关于 所 应 用 的 数据 的 许多 信息 ， 所 以 作者 大 概 在 每 一 数据 挖掘 工程 中 都 会 
用 到 决策 树 ， 即 便 最 终 模 型 将 使 用 某 些 其 他 技术 创建 。 
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第 7 章 人 工 神经 网 络 


在 许多 数据 挖掘 和 决策 支持 应 用 中 ， 由 于 有 公认 的 轨迹 记录 ， 人 工 神经 网 络 已 经 成 为 一 
种 普遍 采用 的 方法 。 神 经 网 络 (“ 人 工 ” 二 宇通 常 被 省 略 ) 是 一 种 可 以 容易 地 应 用 于 预测 、 
分 类 和 聚 类 的 强 有 力 的 多 用 途 工 具 。 从 预测 金融 业 的 时 间 序 列 到 医学 诊断 情形 ， 从 识别 有 价 
值 的 客户 群 到 识别 欺诈 信 用 卡 交 易 ， 从 识别 写 在 支票 上 的 数字 到 预测 发 动机 的 故障 率 ， 等 
等 ， 人 工 神经 网 络 被 广泛 应 用 到 各 行 各 业 。 

当然 ， 最 有 力 的 神经 网 络 是 生物 所 具有 的 那些 神经 网 络 ， 人 的 大 脑 使 人 们 能 够 总 结 经 
验 。 与 此 对 应 的 是 ， 计 算 机 则 通常 擅长 于 反复 执行 明确 的 指令 。 神 经 网 络 的 魅力 在 于 ， 通 过 
在 数字 计算 机 上 模拟 人 脑 的 神经 联系 ， 桥 连 二 者 之 间 的 隔 闵 。 在 明确 定义 的 领域 中 使 用 时 ， 
从 某 种 意义 上 来 说 ， 神 经 网 络 从 数据 中 概括 和 学 习 的 能 力 ， 是 模仿 我 们 从 经 验 中 学 习 的 能 
力 。 这 种 能 力 对 数据 挖 据 是 有 用 的 ， 而 且 也 使 神经 网 络 的 研究 成 为 令 人 兴奋 的 领域 ， 预 示 着 
未 来 有 新 的 和 更 好 的 结果 。 

但 一 个 缺点 是 ， 训 练 神 经 网 络 所 得 到 的 结果 是 遍及 网 络 内 部 的 权重 ， 这 些 权重 所 提供 的 
关于 “为 什么 解决 方案 正确 ”的 洞察 ， 一 点 也 不 比 剖 析 人 脑 以 解释 人 的 思维 过 程 的 方法 所 能 
提供 的 更 多 。 也 许 将 来 有 一 天 ， 探 查 神经 网 络 的 尖端 技术 可 以 帮助 提供 一 些 解释 。 同 时 ， 像 
人 类 大 脑 的 工作 一 样 神秘 ， 神 经 网 络 也 是 通过 内 部 运行 的 暗箱 很 好 地 完成 它 的 工作 ， 如 同 古 
希腊 人 顶礼 膜 套 的 Delphi 神 所 示 的 回应 一 样 ， 神 经 网 络 产生 的 答案 时 常 是 正确 的 。 这 些 答 
案 具 有 商业 价值 一 一 在 许多 情况 下 ， 是 一 个 比 提供 解释 更 重要 的 特征 。 

本 章 将 首先 回顾 一 下 历史 ， 神 经 网 络 起 源 于 通过 在 计算 机 上 建立 模型 来 模仿 人 类 智能 的 
实际 尝试 。 然 后 ,在 开始 分 析 技 术 性 细节 之 前 ， 讨 论 回顾 了 使 用 这 项 技术 进行 房地产 评估 的 
早期 案例 历史 。 本 章 的 大 部 分 内 容 把 神经 网 络 作为 预言 性 建 模 工 具 ， 在 本 章 的 最 后 ， 讲 述 如 
何 将 它们 应 用 于 非 定 向 数据 挖掘 。 一 如 既往 ， 我 们 还 是 从 讲述 历史 开始 。 


7.1 历史 回眸 


在 计算 机 科学 年 鉴 上 ， 神 经 网 络 有 耐人寻味 的 历史 。 关 于 神经 元 功能 的 最 初 研究 一 生 
物 神 经 元 一 一 出 现在 20 世纪 30 年 代 和 40 年 代 ， 比 数字 计算 机 产生 的 历史 还 早 。1943 年 ， 
耶鲁 大 学 的 神经 生理 学 家 Warren McCulloch 和 逻辑 学 家 Walter Pitts 设计 了 一 个 简单 的 模型 ， 
解释 生物 神经 元 如 何 工 作 ， 撰 写 并 出 版 了 题 为 “神经 活动 中 内 在 的 逻辑 运算 法 ”的 论文 。 尽 
管 他 们 关注 的 目标 是 理解 大 脑 解剖 结构 ， 最 后 的 结果 却 是 : 该 模型 给 人 工 智能 领域 提供 了 某 
种 灵感 ， 并 且 最 终 提 供 了 一 种 解决 神经 生物 学 以 外 的 特定 问题 的 新 方法 。 

在 20 世纪 50 年 代 ， 当 数字 计算 机 开始 出 现时 ， 以 MeCulloch 和 Pitts 的 工作 为 基础 ， 
计算 机 科学 家 设计 出 了 被 称 为 感知 器 (perceptron) 的 模型 。 这 些 早期 的 网 络 解决 的 问题 实 
人 锣 是 ， 如 何 通过 来 回 控制 手推车 运动 来 平衡 竖立 在 手推车 上 的 扫 盟 。 当 扫 晕 开始 向 左 侧 牌 倒 
时 ， 手 推 车 随 之 向 左 移动 使 它 保持 直立 。 虽 然 在 实验 室 里 ， 出 现 了 有 限 的 少数 几 个 使 用 感知 
器 并 获得 成 功 的 例子 ， 但 作为 解决 问题 的 普通 方法 ， 其 结果 却 令 人 失望 。 

早期 神经 网 络 应 用 受 限 的 一 个 原因 是 ， 在 那个 时 代 ， 功 能 最 强 的 计算 机 也 比 不 上 今天 廉 


免费 领取 更 多 资源 V: 3446034937 


144 获 7 了 7 音 


价 的 台式 计算 机 。 另 一 个 理由 是 ， 就 像 1968 年 Seymour Papert 和 Marvin Minsky (马萨诸塞 
工学 院 的 两 位 教授 ) 所 揭示 的 ， 这 些 简 单 的 网 络 有 理论 缺陷 。 由 于 这 些 原 因 ， 在 20 世纪 70 
年 代 ， 神 经 网 络 在 计算 机 上 实现 的 研究 大 幅 减 缓 。 后 来 ， 加 州 工学 院 的 John Hopfield 在 
1982 年 发 明了 反 向 传播 (back propagation) ， 一 种 避 开 较 早 方法 的 理论 缺陷 的 神经 网 络 训 练 
方法 。 这 一 发 展 引 发 了 神经 网 络 研究 的 复兴 。 在 整个 20 世纪 80 年 代 ， 研 究 从 实验 室 转向 商 
业界 。 此 后 研究 被 用 于 既 解 决 操 作 性 问题 〈 例 如 探测 欺诈 信用 卡 交 易 的 发 生 ， 识 别 支票 上 所 
写 金 额 )， 又 解决 数据 挖掘 面临 的 挑战 。 

在 人 工 智 能 研究 人 员 开 发 类 似 于 生物 活动 模型 的 神经 网 络 的 同时 ， 统 计 学 家 正在 利用 计 
算 机 ， 扩 展 统 计 方法 的 能 力 ， 一 种 被 称 为 逻辑 回归 技术 ， 被 证 明 对 许多 统计 分 析 特 别 有 价 
值 。 如 同 线性 回归 一 样 ， 逻 辑 回 归 试 着 画 出 一 条 适应 观察 数据 的 曲线 。 它 不 使 用 直线 ， 而 是 
使 用 一 种 郴 数 ， 被 称 为 逻辑 函数 。 逻 辑 回归 以 及 其 同类 线性 回归 都 可 以 看 做 神经 网 络 的 特 
例 。 事 实 上， 神经 网 络 的 全 部 理论 都 可 以 使 用 统计 方法 来 解释 ， 如 概率 分 布 、 可 能 性 等 。 然 
而 ， 出 于 解释 的 目的 ， 本 章 更 多 地 倾向 于 生物 模型 ， 而 不 是 纯 理 论 的 统计 学 。 

受 多 种 因素 的 影响 ， 神 经 网 络 在 20 世纪 80 年 代 变 得 很 受 欢 迎 。 首 先 ， 计 算 能 力 完全 能 
满足 要 求 ， 尤 其 是 在 商业 领域 中 有 众多 的 数据 可 以 利用 ; 其 次 ， 由 于 分 析 人 员 认 识 到 它们 与 
已 知 的 统计 方法 密切 相关 ， 使 用 神经 网 络 变 得 更 加 得 心 应 手 ; 第 三 ， 由 于 多 数 公 司 的 操作 系 
统 已 经 实现 自动 化 ， 所 以 有 相关 的 数据 ; 第 四 ， 实 际 的 应 用 比 纯粹 的 人 工 智能 方法 更 重要 ， 
帮助 人 们 构建 的 工具 已 经 取代 了 制造 假 人 的 目标 。 由 于 具备 确凿 无 疑 的 功能 ， 神 经 网 络 现在 
已 经 是 〈 并 将 继续 是 ) 数据 控 气 非常 受 欢迎 的 工具 。 


7.2 房地产 评估 


与 人 类 专家 从 经 验 获取 知识 的 方法 完全 相同 ， 神 经 网 络 有 能 力 通 过 案例 学 习 。 下 面 的 例 
子 应 用 神经 网 络 解决 多 数 读者 熟悉 的 问题 一 一 房地产 评估 。 

为 什么 要 进行 自动 评估 呢 ? 很 清楚 ， 自 动 评估 可 以 帮助 房地产 代理 商 较 好 地 将 预期 的 买 
主 与 预期 住宅 匹配 到 一 起 ， 改 进 经 验 不 足 的 代理 商 的 生产 率 。 另 外 一 种 用 途 是 建立 资讯 服务 
站 或 Web 页 ， 预 期 的 买主 可 以 在 那里 描述 想 要 的 住宅 一 一 而 且 直 接 得 到 关于 他 们 梦 傈 以 求 
的 房子 需要 多 少 花费 的 反馈 。 

也 许 意 想 不 到 的 应 用 是 在 二 级 抵押 市 场 上 。 因 为 影响 拖欠 的 主要 因素 是 风险 财产 价值 的 
比例 。 好 的 、 协 调 一 致 的 评估 对 评定 个 人 贷款 和 贷款 组 合 的 风险 相当 重要 。 如 果 贷 款 量 超过 
100% 的 市 场 价 值 ， 拖 和 欠 的 风险 上 升 得 相当 快 ， 一 旦 给 出 贷款 ， 市 场 价值 如 何 计算 ?为 弄 清 
这 个 意图 ， 美 国联 邦 住宅 抵押 贷款 公司 〈(Federal Home Loan Mortgage Corporation) 的 Fred- 
die Mac 开发 了 被 称 为 贷款 勘探 者 〈Loan Prospector) 的 一 种 产品 ， 对 美国 各 处 住宅 自动 地 进 
行 评估 。 贷 款 勘探 者 最 初 是 由 圣 地 亚 本 的 一 家 公司 HNC 基于 神经 网 络 技术 开发 的 ， 该 公司 
现 已 并 人 Fair Isaac 公司 。 

回 到 刚才 的 实例 ， 该 神经 网 络 模仿 评估 师 ， 根 据 财产 特征 估计 住宅 市 场 价格 〈 见 图 7-1)。 
她 知道 在 城镇 的 某 一 个 区 域 中 的 住宅 比 在 其 他 地 区 昂贵 。 附 加 的 卧室 、 较 大 的 车 库 、 住 宅 的 风 
格 和 占 地 面积 的 大 小 是 要 考虑 的 其 他 因素 。 她 没有 使 用 一 些 固定 的 方法 ， 而 是 在 平 衔 类 似 销售 
房价 的 经 验 和 知识 ， 而 且 她 所 拥有 的 购房 价格 知识 不 是 静态 的 。 她 知道 整个 区 域 近 期 住宅 的 销 
售 价格 ， 并 且 能 识别 随时 间 变 化 的 价格 趋势 一 一 为 适应 最 近 的 数据 精心 调整 测算 。 
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图 7-1 房地产 代理 商 和 评估 师 结合 住宅 的 特征 ， 提 出 评估 值 一 一 生物 神经 网 络 工作 实例 


在 一 个 明确 定义 的 领域 中 ,评估 师 或 房地产 代理 商 是 人 类 专家 的 很 好 示例 。 经 专家 考虑 
的 一 套 固定 标准 用 以 描述 住宅 的 特征 ， 并 且 变 成 评估 值 。IBM 的 研究 人 员 在 1992 年 承认 这 
是 一 个 好 的 神经 网 络 问题 ， 图 7-2 说 明了 为 什么 。 神 经 网 络 获得 特定 的 输入 一 一 在 本 例 中 是 
来 自 房产 相关 单据 的 信息 一 -并 将 它们 变 为 特定 的 输出 ， 即 住宅 的 评估 值 。 因 为 以 下 两 个 因 
素 ， 输 入 的 列表 是 明确 定义 的 : 一 是 扩充 使 用 多 重 列表 服务 (MLS) 来 共享 不 同 的 房地产 
代理 商 的 房屋 资讯 市 场 信 息 ; 二 是 将 二 级 市 场 上 出 售 的 抵押 住宅 描述 标准 化 。 期 望 的 输出 也 
是 明确 定义 的 一 一 特定 的 美元 数目 。 除 此 之 外 ， 在 早期 的 销售 形式 中 有 很 丰富 的 经 验 ， 可 以 
教会 网 络 如 何 评估 住宅 。 

提示 : 神经 网 络 非常 适合 于 预测 和 估计 问题 。 好 的 问题 有 下 列 三 个 特点 : 

。 输 入 很 容易 理解 。 你 非常 清楚 数据 的 哪些 特征 是 很 重要 的 ， 但 是 没有 必要 知 
道 如 何 将 它们 结合 在 一 起 。 

。 输 出 很 容易 理解 。 你 知道 正在 尝试 建立 的 模型 的 内 容 。 

。 经 验 是 非常 有 用 的 。 你 有 大 量 的 输入 和 输出 是 已 知 的 例子 ， 用 这 些 案例 来 训 
练 网 络 。 

建立 神经 网 络 以 便 计 算出 估计 的 住宅 价值 ， 第 一 步 就 是 确定 一 组 影响 销售 价格 的 特征 ， 
可 能 的 常见 特征 见 表 7-1。 实 际 上 ， 这 些 特 征 只 对 某 个 地 理 区 域 的 住宅 起 作用 。 为 了 扩展 评 
价 实例 以 处 理 许多 邻近 地 区 住宅 的 估价 ， 输 入 数据 可 能 还 要 包括 邮政 编码 信息 、 邻 近 地 区 的 
人 口 统计 信息 和 其 他 邻近 地 区 生活 质量 指标 ， 例 如 学 校 排名 和 交通 方便 程度 。 为 了 简化 实 
例 ， 这 些 附加 特征 不 包括 在 我 们 的 讨论 中 。 
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图 7-2 神经 网 络 就 像 一 个 知道 如 何 处 理 输入 以 产生 输出 的 黑匣子 ， 
计算 相当 复杂 且 难 以 理解 ， 但 给 出 的 结果 时 常 是 有 用 的 


表 7-1 描述 住宅 的 普通 特征 
特征 字段 描 述 取 值 范围 
Num ”Apartments 住宅 单元 数目 整数 : 1 一 3 
Year _ Built 建造 年 代 整数 : 1850 一 1986 
Plumbing Fixturcs 管子 附件 数目 整数 : S 一 17 
Heating Type 取暖 系统 类 型 代码 : A 或 者 B 
Basement Garage 底层 车 库 〈 可 存 车 数 ) 整数 : 0 一 2 
Attached ”Garage 附带 木 制 车 库 面 积 〈 平 方 英尺 ) 整数 : 0 一 228 
Living 、Area 总 居住 面积 〈 平 方 英尺 ) 整数 : 714-~-4185 
Deck _ Area 露台 /敞开 门廊 面积 〈 平 方 英尺 ) 整数 : 0 一 738 
Porch _ Area 室内 门廊 面积 〈 平 方 英尺 ) 整数 : 0.-452 
Recroom _、 Area 娱乐 室 面 积 (平方 英尺 ) 整数 : 0 一 672 
Basement 、Area 已 完成 地 下 室 面 积 (平方 英尺 ) 整数 : 0 一 810 


训练 网 络 ， 建 立 估计 模型 ， 然 后 将 模型 用 于 估计 未 知 实例 的 目标 价值 。 将 已 知 的 实例 


(来 自 以 前 销售 的 数据 ) 用 于 训练 网 络 ， 使 它 学 会 如 何 计算 销售 价格 。 训 练 实例 需要 有 另外 
两 个 附加 的 特征 : 房子 的 销售 价格 和 销售 日 期 。 销 售 价格 被 用 作 目 标 变量 ， 而 日 期 则 用 于 将 
实例 分 割 成 训练 集 、 验 证 集 和 测试 集 ， 表 7-2 显示 的 是 来 自 训练 集 的 一 个 实例 。 


表 7-2 来 自 训练 集 的 样本 记录 ， 价 值 按 比例 换算 到 (~-1，1) 的 范围 


特征 字段 取 值 范围 原 始 值 比例 映射 值 
Sales _Price 下 103 000 - $250 000 $171 000 一 0.0748 
Months _Ago 0 一 23 4 一 0.6522 
Num “Apartments ee] 开 一 1.0000 
Year _Built 1850 一 1986 1923 +0.0730 
Piumbing Fixtures 5 一 17 9 一 0.3077 
Heating _Type 代码 为 A 或 了 也 士 1.0000 
Basermaent Garage 0 一 2 0 一 1.0000 
Attached ”Garage 0 一 228 120 二 0.0524 
Living _Area 714 一 4185 1614 一 0.4813 
Deck Area 0 一 738 0 一 1.0000 
Porch _、Area 0 一 452 210 -0.0706 
Recroom Area 0 一 672 0 一 1.0000 


Basement Area 


0 一 810 175 


一 0.3672 


一 ~-~ -~ ~ 
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训练 网 络 的 过 程 实际 上 是 内 部 调整 权重 的 过 程 ， 以 便 最 终 达 到 权重 的 最 佳 组 合 ， 实 现 期 
望 的 预测 。 神 经 网 络 从 随机 的 一 组 权重 开始 ， 它 最 初 的 表现 很 差 ， 但 通过 在 训练 集 上 反复 进 
行 训 练 ， 并 且 每 次 调整 内 部 权重 以 减 小 总 误差 ， 网 络 在 训练 集 上 的 表现 会 越 来 越 好 ， 逐 渐 地 
接近 目标 数值 ， 直 到 近似 值 不 再 改变 时 ， 网 络 停止 训练 。 

这 个 调整 权重 的 过 程 对 进入 数据 的 表示 法 比较 敏感 。 例 如 ， 考 虑 数据 中 用 于 测定 占 地 面 
积 大 小 的 字段 ， 如 果 占 地 面积 大 小 按 英 亩 计量 ， 则 可 能 的 合理 值 大 约 在 178 英亩 到 1 英亩 之 
闻 ; 如 果 按 平方 英尺 测量 ， 同 一 面积 的 数值 可 能 是 从 $ 445 平方 英尺 到 43 560 平方 英尺 。 然 
而 ， 由 于 技术 原因 ， 神 经 网 络 把 输入 限制 为 小 的 数值 ， 比 如 -1 和 1 之 间 。 举 例 来 说 ， 如 果 
一 个 输入 变量 具有 比 其 他 输入 变量 大 很 多 的 值 ， 这 个 变量 就 会 在 目标 变量 的 计算 过 程 中 占有 
优势 ， 神 经 网 络 就 会 消耗 宝贵 的 迭代 来 减 小 这 一 输入 的 权重 ， 以 减 小 它 对 输出 的 影响 。 即 ， 
网 络 将 会 找到 的 第 一 种 “模式 ”是 ， 占 地 面积 变量 的 数值 较 其 他 变量 的 值 大 得 多 。 既 然 这 不 
是 特别 有 意义 的 ， 最 好 还 是 使 用 英亩 而 不 是 平方 英尺 测定 占 地 面积 大 小 。 

这 个 思想 概括 为 ， 神 经 网 络 的 输入 通常 应 该 是 小 一 点 的 数值 ， 最 好 将 其 限制 在 小 范围 
内 ， 如 -1 到 1， 而 这 需要 在 训练 网 络 之 前 观 射 所 有 的 数值 ( 像 绘制 地 图 那样 按 比 例 变 换 数 
值 ) ， 包 括 连 续 型 和 分 类 型 数值 。 

有 映 射 连续 数值 的 一 种 方法 是 把 它们 变 成 分 数 ， 一 般 是 用 该 值 减 去 数值 范围 的 中 值 ， 将 结 
果 除 以 范围 的 大 小 ， 然 后 乘 以 2。 例 如 ， 为 得 到 建造 年 代 Year _Built (1923) 的 映射 值 ， 从 
1923 年 (建造 这 由 古老 住宅 的 年 份 ) 减 去 (1850+1986) 人 2= 1918 (中 值 ) 得 7， 除 以 年 代 
范围 的 数值 (1986- 1850+1= 137) 生成 一 个 比例 值 ， 然 后 乘 以 2， 得 到 的 值 是 0.0730。 这 
个 基本 过 程 可 应 用 于 任何 连续 型 特征 ， 从 而 得 到 在 -1 和 1 之 间 的 值 。 映 射 分 类 型 特征 的 一 
种 方式 是 在 -1 和 1 之 间 为 每 个 类 给 出 一 个 分 数值 。 在 本 例 数 据 中 ， 惟 一 的 分 类 变量 是 取暖 
类 型 Heating _Type， 因 此 ， 可 以 任意 地 映射 B 为 1，A 为 -1; 假如 有 三 个 值 ， 就 可 以 分 配 
一 个 为 =-1， 另 外 一 个 为 0， 第 三 个 为 1， 尽管 这 种 方法 的 缺点 是 : 似乎 三 种 取暖 类 型 存在 一 
个 顺序 关系 ， 类 型 -1 距 类 型 0 的 距离 显然 比 距 类 型 1 更 近 。 第 17 章 中 进一步 讨论 了 如 何 
将 分 类 变量 转换 成 数值 变量 ， 而 不 会 增加 伪 信 息 。 

使 用 这 些 简单 的 技术 ， 有 可 能 映射 先前 〈 见 表 7-2) 展示 的 样板 房 记 录 的 所 有 字段 并 训 
练 网 络 。 训 练 过 程 就 是 通过 训练 集 来 调整 权重 的 迭代 过 程 ， 有 时 把 每 次 欠 代 称 为 一 代 。 

网 络 被 训练 以 后 ， 必 须 在 验证 集 上 测试 每 一 代 的 表现 。 神 经 网 络 的 较 早 几 代 在 验证 集 上 
的 表现 往往 比 最 终 网 络 〈 训 练 集 被 最 优化 ) 更 好 ， 这 是 由 于 过 度 适 应 (overfitting， 已 在 第 3 
章 中 讨论 过 ) 造成 的 ， 也 是 神经 网 络 的 强劲 有 力 的 结果 。 神 经 网 络 实际 上 是 -一 个 通用 近似 器 
的 实例 ， 也 就 是 说 ， 任 何 函数 都 可 以 用 适当 的 复杂 神经 网 络 来 提供 相近 的 结果 。 神 经 网 络 和 
决策 树 都 具有 这 样 的 特点 ， 而 线性 和 逻辑 回归 则 不 具备 ， 因 为 它们 假设 基本 函数 具有 特别 的 
形状 。 

与 其 他 的 建 模 方法 相 比 ， 神 经 网 络 仅仅 能 学 会 在 训练 集中 存在 的 模式 ， 导 致 过 度 适 应 。 
为 了 找到 未 知 数据 的 最 佳 网 络 ， 训 练 过 程 记 住 每 代 期 间 计 算出 的 一 套 权 重 ， 最 终 的 网 络 来 自 
于 在 验证 集 上 工作 最 佳 的 那 一 代 ， 而 不 是 在 训练 集 上 运转 最 佳 的 一 代 。 

当 模型 在 验证 集 上 的 表现 令 人 满意 的 时 候 ， 神 经 网 络 模型 就 已 经 为 应 用 做 好 了 准备 。 它 
已 经 从 训练 实例 学 习 ， 并 且 了 解 如 何 从 所 有 输入 计算 销售 价格 。 模 型 读 取 住 宅 描述 性 信息 ， 
经 过 适当 的 映射 后 产生 输出 。 有 一 个 忠告 ， 输 出 本 身 是 一 个 介 于 0 和 1 之 间 〈 对 于 逻辑 激活 
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函数 ) 或 =1 和 1 之 间 (对 于 双 曲 正切 ) 的 数 ， 它 需要 被 再 次 映射 回 销售 价格 范围 ， 举 例 来 
说 ， 数 值 0.75 可 以 乘 以 范围 的 大 小 〈$147 000) ， 然 后 加 上 该 类 的 基数 ($103 000)， 从 而 
得 到 评价 值 $213 250。 


7.3 用 于 定向 数据 挖掘 的 神经 网 络 


上 面 的 实例 展示 了 神经 网 络 最 普遍 的 应 用 : 建立 分 类 或 预测 模型 。 这 一 过 程 的 步 双 
如 下 : 

1) 识别 输入 和 输出 特征 ; 

2) 转换 输入 和 输出 值 ， 使 其 限定 在 一 个 小 范围 内 (-1 到 1); 

3) 采用 适当 拓扑 (布局 ) 建立 网 络 ; 

4) 在 一 个 训练 样本 的 代表 性 集合 上 训练 网 络 ; 

5) 使 用 验证 集 选 择 使 误差 减 到 最 小 的 权重 集 ; 

6) 用 测试 集 评 佑 网络， 观察 网 络 执行 情况 ; 

7) 应 用 网 络 产生 的 模型 预测 未 知 输入 的 结果 

幸运 的 是 ， 现 在 的 数据 挖掘 软件 能 自动 地 执行 大 部 分 的 步骤 。 虽 然 不 必 非 常熟 悉 内 部 工 
作 的 知识 ， 但 成 功 使 用 网 络 仍 存在 一 些 关键 问题 。 和 所 有 预言 性 建 模 工 具 一 样 ， 最 重要 的 问 
题 是 选择 正确 的 训练 集 ; 其 次 ,应 以 一 种 合适 的 方法 表达 数据 ， 使 网 络 识别 模式 的 能 力 最 大 
化 ; 第 三 ， 解 释 来 自 网 络 的 结果 ; 最 后 ， 要 了 解 有 关 它 们 如 何 运行 的 一 些 特殊 细节 ， 如 网 络 
拓扑 学 和 参数 控制 训练 ， 这 有 助 于 构造 运行 良好 的 网 络 。 

使 用 任何 预言 模型 或 分 类 模型 的 危险 之 一 是 ， 当 模型 衰老 时 ， 它 的 时 效 性 较 差 一 -神经 
网 络 模型 也 不 例外 。 对 于 评价 实例 ， 神 经 网 络 已 经 以 训练 集 的 内 容 为 基础 ， 获 得 了 关于 使 它 
能 够 从 住宅 描述 预测 评估 值 的 历史 模式 。 谁 也 无 法 保证 目前 的 行情 与 上 周 、 上 个 月 或 6 个 月 
以 前 〈 当 训练 集 被 抽取 出 来 时 ) 相 匹配 。 新 住宅 买卖 每 天 都 在 进行 ， 正 在 创造 和 回应 在 训练 
集中 没有 出 现 的 市 场 购买 力 。 利 率 的 上 升 或 下 降 ， 或 通货 膨胀 的 增加 ， 都 有 可 能 快速 改变 评 
价值 。 受 两 个 因素 的 影响 ， 神 经 网 络 模型 更 加 难以 保持 最 新 。 首 先 ， 模 型 不 容易 以 规则 的 形 
式 表达 它 本 身 ， 因 此 ， 当 它 已 经 变 得 过 期 时 ， 也 不 容易 看 出 来 ; 其 次 ， 当 神经 网 络 退化 时 ， 
它们 一 般 会 微妙 地 、 不 明显 地 降低 性 能 。 简 而 言 之 ， 模 型 逐渐 过 期 ， 但 人 们 并 不 总 是 清楚 什 
么 时 候 应 该 更 新 它 。 

解决 的 办 法 是 将 近期 的 更 多 数据 纳入 神经 网 络 。 一 种 方法 是 将 同样 的 神经 网 络 返回 到 训 
练 状态 ， 并 开始 输送 新 数值 。 如 果 网 络 仅仅 需要 调整 结果 ， 比 如 当 网 络 相当 接近 精确 时 ， 而 
你 认为 可 以 通过 给 它 更 多 较 近 的 例子 来 改善 准确 度 的 时 候 ， 这 是 一 个 好 方法 ; 另 一 种 方法 是 
通过 把 新 的 例子 加 入 训练 集 (也 许 是 删除 旧 的 例子 ) 重新 开始 训练 整个 网 络 ， 或 许 甚至 采用 
不 同 的 拓扑 〈 后 面 将 进一步 讨论 网 络 拓扑 )， 当 市 场 行情 可 能 已 经 发 生 巨变 ， 从 原来 的 训练 
集 发 现 的 模式 不 再 适用 的 时 候 ， 这 是 一 个 合适 的 方法 。 

在 第 2 章 中 描述 的 数据 挖掘 良性 循环 促进 了 从 数据 控 掘 活动 测定 结果 。 这 些 测定 有 助 于 
了 解 给 定 的 模型 在 多 大 程度 上 易于 老化 衰减 ， 以 及 神经 网 络 模型 什么 时 候 应 该 被 重新 训练 。 

获 告 : 神经 网 络 至 多 像 用 于 产生 它 的 训练 集 一 样 好 。 模 型 是 静态 的 ， 为 了 使 它 保持 

最 新 和 有 效 ， 必 须 通过 把 更 多 近期 的 例子 加 入 训练 集 并 再 次 训练 网 络 (或 训练 新 的 

网 络 ) ， 以 完成 显 式 升级 。 
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7.4 神经 网 络 是 什么 


神经 网 络 由 基本 单元 作成 ， 这 些 基 本 单元 以 简化 的 方式 模仿 自然 界 发 现 的 生物 神经 元 行 
为 ,不管 这 些 神经 元 是 组 成 人 类 的 大 脑 还 是 青蛙 的 大 脑 。 例 如 有 人 人 宣称， 青蛙 的 视觉 系统 里 
面 有 一 个 单元 ， 可 以 因为 飞行 运动 而 被 激发 ， 还 有 另外 一 个 单元 ， 对 应 于 飞行 物 大 小 而 被 激 
发 。 这 两 个 单元 都 与 一 个 神经 元 相连 接 ， 当 这 两 个 输入 组 合 值 高 的 时 候 ， 这 个 神经 元 被 激 
发 。 而 这 个 神经 元 正 是 另外 一 个 神经 元 的 输入 ， 从 而 引发 青蛙 舌 部 的 探 出 行为 。 

其 基本 观点 是 ， 每 个 神经 元 〈 不 管 是 青蛙 的 或 计算 机 中 的 ) 都 有 许多 的 输入 ， 神 经 元 把 
这 些 输 入 结合 在 一 起 给 出 单一 输出 值 。 在 大 脑 中 ， 这 些 单元 可 能 连接 专门 的 神经 。 计 算 机 中 
则 比较 简单 ， 这 些 单元 只 是 被 简单 地 连 到 一 起 〈 如 图 7-3 所 示 )， 来 自 某 些 单元 的 输出 被 当 
作 其 他 单元 的 输入 。 图 7-3 所 示 是 前 馈 神 经 网 络 〈feed-forward neural network) 的 实例 ， 这 
意味 着 有 一 个 从 输入 到 输出 的 单 向 流通 过 网 络 ， 在 网 络 中 没有 循环 。 

前 馈 网 络 对 于 定向 建 模 是 最 简单 的 和 最 有 用 的 网 络 类 型 。 关 于 前 馈 网 络 ， 有 三 个 基本 问 
题 要 明确 : 

“单元 到 底 是 什么 ? 它们 是 如 何 工作 的 ? 即 ， 激 活 函 数 是 什么 ? 

。 单 元 如 何 被 连 在 一 起 ? 即 ， 网 络 拓扑 是 什么 ? 

。 网络 如 何 学 会 识别 不 同 模式 ? 即 ， 反 向 传播 是 什么 ? 更 概括 地 说 ， 网 络 是 如 何 训练 出 

来 的 ? 

对 这 些 问 题 的 回答 提供 了 解 基本 神经 网 络 的 背景 资料 ， 这 种 了 解 可 以 指导 我 们 利用 这 种 

强 有 力 的 数据 挖掘 技 术 来 得 到 最 好 结果 。 


一 输入 1 
这 个 简单 的 神经 网 络 
接受 四 个 输入 然后 产 
一 输入 2 生 二 个 鲍 出 ， 训 练 这 
个 网 络 的 结果 ， 等 价 
输出 ~ 全 于 称 之 为 逻辑 回归 的 
一 输入 3 统计 技术 。 
一 输入 4 
~- 一 输入 1 
一 输入 2 这 个 网 络 有 一 个 中 间 层 ， 
称 之 为 隐藏 层 ， 它 使 网 络 
5 铂 出 ~ 全 能 识别 更 多 的 烘 式 , 变 得 
-一 击 更 加 有 力 。 
-一 输入 4 


图 7-3 ”前 镶 神 经 网 络 从 一 端 接 受 输 入 ， 然 后 把 它们 转变 成 输出 
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-一 输入 1 


一 输入 ? 增加 隐藏 朋 大 小 使 网 络 
输出 ~ ， 变 得 更 加 有 力 ， 但 是 引 
一 输入 3 进 了 过 度 适 应 的 危险 ， 

通常 只 需要 一 个 隐藏 层 。 


一 输入 4 


-一 条 入 ! 
输出 1 - 
一 输入 2 一 个 神经 网 络 能 产生 
输出 2 -二 。 多重 输出 值 。 

一 输入 3 
输出 3 - 伍 
-一 输入 4 


图 7-3 ( 续 ) 
7.4.1 神经 网 络 的 单元 是 什么 


岁 7-4 显示 人 工 神 经 元 的 重要 特征 。 这 个 单元 把 几 个 输入 结合 到 一 起 变 成 一 个 单一 值 ， 
然后 将 它 转换 后 产生 输出 ， 上 述 整个 过 程 被 称 为 激活 有 函数 。 最 通常 的 激活 函数 是 以 生物 模型 
为 基础 ， 在 组 合 的 输入 达到 阔 值 以 前 ， 模 型 输出 一 直 很 低 ; 当 组 合 的 输入 达到 阔 值 时 ， 单 元 
被 激活 ， 输 出 变 得 很 高 。 

与 它 的 生物 学 对 应 体 相 似 ， 神 经 网 络 单元 的 特点 是 : 当 组 合 输入 值 处 于 某 一 中 间 范 围 
时 ， 输 入 的 很 小 变化 可 以 对 输出 产生 较 大 的 影响 。 相 反 地 ， 当 组 合 的 输入 远离 中 间 范 围 时 ， 
大 的 输入 值 变 化 可 能 对 输出 影响 甚 微 。 这 种 特点 ， 即 小 的 变化 有 时 很 关键 ， 但 有 时 却 不 是 这 
样 ， 就 是 非 线性 行为 的 实例 。 神 经 网 络 的 强劲 有 力 和 复杂 性 ， 都 来 自 于 它们 的 非 线性 行为 ， 
当然 这 也 起 因 于 组 合 神经 元 所 使 用 的 特定 激活 函数 。 

激活 函数 包括 两 个 部 分 ， 第 一 部 分 是 组 合 所 有 的 输入 成 为 单一 值 的 组 合 函 数 (combina- 
tion function)。 如 图 7-4 所 示 的 那样 ， 每 个 进入 单元 的 输入 有 自己 的 权重 ， 最 通常 的 组 合 函 
数 是 加 权 和 ， 即 每 个 输入 与 它 的 权重 相 乘 ， 然 后 把 这 些 值 求 和 。 其 他 的 组 合 函数 有 时 是 有 用 
的 ， 其 中 包括 加 权 输 入 的 最 大 值 、 最 小 值 和 值 的 逻辑 “AND” 或 “OR” 等 。 尽 管 在 选择 组 
合 函 数 时 有 很 大 的 灵活 性 ， 但 使 用 标准 的 加 权 和 在 很 多 情况 下 工作 良好， 选择 这 个 元 素 是 神 
经 网 络 的 一 个 普通 特点 。 它 们 的 基本 结构 是 相当 灵活 的 ， 但 是 对 应 于 最 初 的 生物 模型 的 那些 
默认 值 一 一 如 组 合 函 数 的 加 权 和 ， 在 实际 工作 中 运行 良好 。 

激活 函数 的 第 二 部 分 是 转换 函数 ， 它 因 把 组 合 函数 的 数值 转化 为 单元 的 输出 这 一 事实 而 得 
名 。 图 7-5 比较 了 三 个 典型 的 转换 函数 : Sigmoid (逻辑 ) 、 线 性 和 双 曲 正切 函数 。 转 换 函 数 所 
接纳 的 特定 值 不 像 一 般 函 数 那样 重要 。 从 我 们 的 角度 看 ， 线 性 转换 函数 是 最 不 令 人 感 兴趣 的 。 
仅仅 由 带 有 线性 转换 函数 的 单元 与 权重 组 合 函 数 总 和 构成 的 前 馈 神 经 网 络 只 能 做 线性 回归 。 
Sigmoid 函数 是 S 型 函数 ， 其 中 有 两 个 最 常用 的 神经 网 络 函数 一 一 逻辑 回归 和 双 曲 正切 。 它 们 
之 间 的 主要 差异 是 其 输出 范围 ， 逻 辑 回归 介 于 0 和 1 之 间 ; 双 曲 正切 介 于 -1 和 1 之 间 。 
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结果 通常 是 介 于 一 1 和 1 之 间 的 一 
个 输出 值 。 


转换 函数 从 组 合 国 数 的 结果 来 计算 
输出 值 。 


组 合 函 数 和 转换 函数 
一 起 构成 激活 函数 。 


组 合 函 数 把 所 有 的 输入 组 合成 为 单 
一 值 ， 通 常 作为 加 权 和 。 


每 个 输入 有 一 个 自己 的 权重 ， 
另外 再 加 上 一 个 称 为 偏离 的 附 
加 权重 。 


输入 


图 7-4 人 工 神经 网 络 的 单元 是 以 生物 神经 元 为 基础 建 模 的 。 
单元 的 输出 是 其 输入 的 一 个 非 线性 组 合 


必 


指数 (tanh) 


0.0 


-0.5 寺 


= 一 1.0 


图 7-5 三 个 常用 的 转换 函数 是 Sigmoid 函数 、 线 性 函数 和 双 曲 正切 函数 
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逻辑 和 双 曲 正切 转换 函数 表现 类 似 。 尽 管 不 是 线性 函数 ， 但 它们 的 表现 还 是 引起 了 统计 
学 家 的 注意 。 当 所 有 输入 的 加 权 和 接近 0 时 ， 这 些 函 数 近似 于 线性 函数 。 统 计 学 家 很 喜欢 线 
性 系统 ， 也 很 喜欢 几乎 接近 线性 的 系统 。 如 加 权 和 的 量 级 变 得 更 大 时 ， 这 些 转换 函数 逐渐 饱 
和 (在 逻辑 回归 情况 下 到 0 和 1; 在 双 曲 正切 情况 下 到 -1 和 1)。 这 种 行为 符合 从 输入 的 线 
性 模型 到 非 线性 模型 的 逐渐 过 渡 。 简 而 言 之 ， 神 经 网 络 有 能 力 对 三 种 类 型 的 问题 做 好 建 模 工 
作 : 线性 问题 、 拟 线性 问题 和 非 线 性 问题 。 在 激活 函数 和 输入 值 范围 之 间 也 有 一 个 关系 ， 见 
后 面 “Sigmoid 函数 和 输入 值 的 范围 ”部 分 的 讨论 。 

网 络 可 以 包含 上 共有 不 同 转换 枉 数 的 单元 ， 这 是 后 面 讨论 网 络 拓扑 时 会 再 次 讨论 的 一 个 主 
题 。 复 杂 的 工具 有 时 允许 使 用 其 他 的 组 合 函 数 和 转换 函数 的 实验 。 其 他 函数 与 标准 函数 的 行 
为 显著 不 同 ， 使 用 不 同类 型 激活 函数 可 能 很 有 意思 ， 有 时 甚至 很 有 帮助 ， 但 如 果 你 不 想 找 麻 
烦 ， 可 以 对 标准 函数 充满 信心 ， 因 为 这 些 函 数 对 于 许多 神经 网 络 应 用 已 被 证 明 是 成 功 的 。 


Sigmoid 函数 和 输入 值 的 范围 
Sigmoid 激活 函数 是 落 入 某 界 线 内 的 S 形 曲线 。 比 如 ， 对 于 所 有 求 和 函数 的 可 能 输出 ， 
逻辑 函数 产生 0 和 1 之 间 的 值 ， 而 双 曲 正切 产生 -1T 和 1 之 间 的 值 。 这 些 函 数 的 公式 是 : 
logistic (zz) =1/ (1+e z) 
tanh (rz) = (er-e zz) / (erz+e) 


用 于 神经 网 络 时 ，>Z 是 组 合 函 数 的 结果 ， 比 较 典 型 的 是 取 进 入 单元 的 输入 的 加 权 和 。 

既然 这 些 函 数 是 对 所 有 z 的 值 定 义 的， 为 什么 推荐 网 络 的 输入 是 一 个 小 的 范围 ， 通 常 
从 -1 到 1? 理由 与 这 些 函 数 在 0 附近 的 表现 有 关 。 在 这 个 范围 中 ， 它 们 的 行为 几 近 线性 ， 
即 z 的 微小 变化 导致 输出 的 微小 变化 ; zz 变化 一 半 导 致 输出 变化 大 约 一 半 。 这 个 关系 不 是 
精确 的 ， 但 是 一 个 很 好 的 近似 。 

出 于 训练 目的 ， 从 准 线性 区 域 开 始 是 一 个 不 错 的 主意 。 当 训练 神经 网 络 时 ， 结 点 可 能 找 
到 数据 中 的 线性 关系 ， 然 后 这 些 结 点 调整 它们 的 权重 ， 使 产生 的 数值 落 入 这 个 线性 范围 ; 其 
他 结 点 可 能 找到 非 线 性 关系 ， 它 们 调整 的 权重 落 在 一 个 较 大 的 范围 。 

要 求 所 有 的 输入 在 同一 个 范围 中 也 可 以 避免 一 个 输入 集 在 其 他 的 输入 集中 占有 优势 ， 例 如 
住宅 价格 ， 一 个 上 万 的 大 数 会 主导 另外 的 输入 ， 如 卧室 的 数目 。 这 是 因为 ， 组 合 函 数 毕 竞 是 输 
入 的 加 权 和 ， 当 有 些 数 值 很 大 的 时 候 ， 它 们 将 会 主导 该 加 权 和 的 值 。 当 工 很 大 时 ， 输 入 权重 
的 微小 调整 对 单元 的 输出 几乎 没有 影响 ， 这 使 得 训练 难以 进行 ， 也 就 是 说 ，Sigmoid 函数 可 以 
利用 一 居室 和 二 居室 之 间 的 差异 ， 但 是 区 别 花 费 $50 000 的 住宅 和 花费 $1 000 000 的 住宅 可 能 
很 困难 ， 可 能 必须 对 网 络 进行 许多 代 的 训练 ， 才 能 调整 与 这 个 特征 相关 的 权重 。 保 持 相 对 小 的 
输入 可 以 对 权重 的 调整 有 较 大 的 影响 ， 对 训练 的 这 种 帮助 是 我 们 坚持 把 输入 限定 在 一 个 小 范围 
的 最 重要 原因 。 

“事实 上 ， 即 使 当 特 征 自 然 地 落 入 比 -1 到 1 还 要 小 的 范围 ， 比 如 0.5 到 0.75， 我 们 也 希 
望 把 这 些 特征 进行 比例 放大 ， 以 便 使 网 络 输入 使 用 从 -1 到 1 的 整个 范围 。 使 用 从 -1 到 1 
的 整个 范围 值 可 以 确保 得 到 最 佳 结果 。 

虽然 推荐 的 输入 范围 是 从 -1 到 1， 但 这 应 该 视 为 一 种 方针 ， 而 不 是 严格 的 准则 。 举 人 铭 
来 说 ， 标 准 化 变量 减 去 均值 后 除 以 标准 差 (standard deviation) 一 就 是 一 个 常用 的 变 
量 转换 ， 这 为 神经 网 络 产生 足够 小 的 有 用 数值 。 
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7.4.2 前 馈 神经 网 络 


前 馈 神 经 网 络 从 输入 值 来 计算 输出 值 ， 如 图 7-6 所 示 。 这 个 网 络 拓扑 (或 结构 ) 是 用 作 
预测 和 分 类 的 典型 网 络 。 单 元 被 编 人 三 个 层 ， 在 左边 的 层 与 输入 相连 接 ， 被 称 为 给 入 层 ， 输 
入 层 的 每 个 单元 只 与 一 个 源 字段 相连 ， 通 常 映 射 在 -1 到 1 的 范围 。 在 这 个 实例 中 ， 输 入 层 
实际 上 没 起 任何 作用 ， 每 个 输入 单元 只 是 将 输入 值 复制 变 成 输出 值 。 如 果 情 况 是 这 样 ， 为 什 
么 要 不 厌 其 烦 地 在 这 里 提 及 呢 ? 因为 它 是 神经 网 络 词汇 表 的 重要 组 成 部 分 ， 在 实际 术语 中 ， 
输入 层 代 表 将 值 映 射 到 合理 范围 的 过 程 。 正 是 由 于 这 个 原因 ， 有 必要 把 它们 包括 进来 ， 因 为 
它们 暗示 了 成 功 使 用 神经 网 络 的 一 个 很 重要 的 方面 。 


从 单元 输出 


$176 228 


[aceomAea | 6| 50000 | 
[asenenaea | 75| 02160| 


图 7-6 此 处 所 显示 的 房地产 训练 实例 ， 将 输入 提供 到 前 馈 
神经 网 络 ， 表 明 网 络 充满 看 似 无 意义 的 权重 

下 一 层 被 称 为 隐藏 层 ， 因 为 它 既 不 与 网 络 输入 相连 ， 也 不 与 网 络 输出 相连 ， 隐 藏 层 的 每 
个 单元 通常 与 输入 层 的 所 有 单元 相连 接 。 由 于 这 个 网 络 包含 许多 标准 单元 ， 隐 藏 层 的 众多 单 
元 把 每 一 个 输入 值 乘 以 对 应 的 权重 ， 然 后 将 这 些 值 求 和 ， 最 后 运用 转换 函数 计算 各 自 的 输出 
值 。 神 经 网 络 允 许 有 任意 数目 的 隐藏 层 ， 但 通常 来 说 ， 有 一 个 隐藏 层 就 足够 了 。 这 个 层 越 宽 
泛 〈 即 包含 较 多 的 单元 ) ， 网 络 识别 出 模式 的 能 力 就 越 高 。 然 而 这 个 更 高 的 能 力也 存在 缺陷 ， 
因为 神经 网 络 可 能 记 住 在 训练 实例 中 的 某 一 种 模式 。 我 们 希望 网 络 能 够 从 训练 集中 得 到 总 
结 ， 而 不 是 记 住 它 ， 为 达到 这 个 目的 ， 隐 藏 层 不 应 该 太 宽 。 

注意 图 7-6 中 的 那些 单元 ， 每 个 单元 都 有 来 自 顶 端的 附加 输入 。 这 是 固定 输入 ， 有 时 称 


免费 领取 更 多 资源 V: 3446034937 


154 委 7 了 音 


为 偏离 ， 且 冲 是 被 设 定 成 1。 像 其 他 输入 一 样 ， 它 有 权重 旦 包含 在 组 合 函 数 中 ， 偏 离 充当 整 
体 偏 移 以 便 帮 助 网 络 较 好 地 理解 模式 。 训 练 阶段 调整 固定 输入 的 权重 的 方法 与 网 络 对 其 他 权 
重 的 调整 方法 相同 。 

右边 的 最 后 一 个 单元 就 是 输出 层 ， 与 神经 网 络 的 输出 相连 接 ， 它 也 与 隐藏 层 中 的 所 有 单 
元 相连 接 。 多 数 情况 下 ， 神 经 网 络 是 用 来 计算 单一 值 ， 因 此 在 输出 层 中 只 有 一 个 单元 和 一 个 
值 。 我 们 必须 把 这 个 数值 映射 回来 以 便 理解 输出 结果 。 对 于 图 7-6 的 网 络 ， 我 们 必须 把 
0.49815 这 个 数值 转换 回 到 一 个 在 $103 000 和 $250 000 之 间 的 值 ， 它 对 应 的 是 $176 228， 
实际 上 非常 接近 实际 价值 $171 000。 在 有 些 执行 过 程 中 ， 输 出 层 使 用 简单 的 线性 转换 函数 ， 
因而 输出 是 输入 的 加 权 线 性 组 合 ， 这 就 去 掉 了 将 输出 进行 映射 的 必要 。 

输出 层 可 以 有 一 个 以 上 的 单元 ， 举 例 来 说 ， 一 家 连锁 百货 公司 想 要 预测 客户 将 会 购买 不 
同 部 门 产品 的 可 能 性 ， 如 女士 服装 、 家 具 和 娱乐 产品 等 ， 以 便利 用 这 种 信息 来 策划 促销 活 
动 ， 以 及 进行 直接 目标 邮寄 。 

为 了 做 出 这 种 预测 ， 可 以 建立 如 图 7-7 中 所 示 的 神经 网 络 。 这 个 网 络 有 三 个 输出 ， 每 个 
部 门 对 应 一 个 输出 ， 输 出 结果 是 在 输入 中 撒 述 的 客户 从 相关 部 门 再 次 购买 的 倾向 。 


倾向 购买 女士 服装 一 一 一 一 一 二 
倾向 购买 家 具 一 


倾向 购买 娱乐 产品 一 一 一 二 


等 等 


图 7-7 该 网 络 有 多 个 输出 ， 可 用 来 预测 百货 公司 客户 下 次 将 会 在 哪个 部 门 购买 

当 把 一 个 客户 的 输入 送 进 网 络 以 后 ， 神 经 网 络 计 算出 三 个 值 ， 在 得 到 这 些 输出 结果 以 
， 百 货 公 司 如何 决 定向 客户 提供 正确 的 一 种 或 者 多 种 促销 呢 ? 当 处 理 若 干 模型 的 输出 结果 
， 一 些 常 用 的 方法 是 

。 记 下 与 最 大 值 输出 对 应 的 部 门 ; 

。 记 下 与 前 三 名 的 输出 数值 对 应 的 部 门 ; 

。 记 下 与 超过 某 个 盖 值 的 输出 对 应 的 所 有 部 门 ; 

。 记 下 那些 大 小 为 最 大 值 单元 某 个 百分比 的 单元 对 应 的 所 有 部 门 。 

所 有 的 这 些 可 能 性 都 能 起 到 很 好 的 作用 ， 每 一 种 各 有 不 同 的 强项 和 弱点 ， 没 有 一 个 总 是 
适合 任何 情况 的 正确 答案 。 实 际 上 ， 需 要 在 测试 集 上 实验 这 些 可 能 性 ， 以 便 决 定 在 特定 的 情 
形 下 哪 一 种 最 好 。 

前 馈 神 经 网 络 拓扑 有 其 他 的 变形 ， 输 入 层 有 时 被 直接 连 到 输出 层 。 在 这 种 情况 下 ， 网 络 
有 两 个 部 分 : 这 些 直 接 的 连接 像 一 个 标准 回归 一 样 〈 线 性 或 逻辑 的 ， 取 决 于 输出 层 的 激活 函 
数 ) ， 对 于 构建 更 标准 的 统计 模型 是 有 益 的 ， 隐 藏 层 随后 对 统计 模型 进行 调整 。 
7.4.3 神经 网 络 如 何 使 用 反 向 传播 学 习 


训练 神经 网 络 的 过 程 就 是 设 定 连接 网 络 所 有 单元 之 间 的 边 的 最 佳 权重 。 目 标 是 使 用 训练 


也 对 
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集 来 计算 权重 ， 对 于 训练 集中 尽 可 能 多 的 实例 ， 使 得 网 络 的 输出 尽 可 能 接近 期 望 结果 。 虽 然 
反 向 传播 不 再 是 调整 权重 的 优先 方法 ， 但 是 它 提供 关于 训练 如 何 运作 的 信息 ， 并 且 它 是 训练 
前 馈 网 络 的 原始 方法 。 反 向 传播 的 核心 是 以 下 三 个 步骤 : 

1) 网 络 得 到 训练 实例 ， 使 用 网 络 现 有 的 权重 ， 计 算 一 个 或 多 个 输出 ; 

2) 然后 ， 反 向 传播 通过 计算 结果 和 预期 结果 (实际 结果 ) 之 差 来 计算 误差 ; 

3) 通过 网 络 反馈 误差 ， 并且 调整 权重 将 误差 减 至 最 小 一 一 由 于 误差 经 过 网 络 被 返回 ， 
所 以 得 名 “ 反 向 传播 "。 

反 向 传播 算法 通过 比较 每 个 训练 实例 产生 的 值 和 实际 值 ， 测 定 网 络 的 总 体 误差 ， 然 后 调 
整 输出 层 权 重 ， 减 小 但 不 是 消除 误差 。 然 而 算法 到 此 并 未 结束 ， 它 把 误差 责任 归咎 于 早期 的 
网 络 结 点 ， 调 整 连接 那些 结 点 的 权重 ， 进 一 步 减 小 总 体 误差 。 分 担 责任 的 特定 机 制 并 不 重 
要 ， 它 足以 说 明 反 向 传播 使 用 复杂 的 数学 过 程 ， 需 要 取 激 活 函 数 的 偏 导数 。 

给 定 误差 ， 单 元 如 何 调整 它 的 权重 ? 它 估 算 变更 每 个 输入 的 权重 是 否 会 增加 或 减 小 误 
差 。 于 是 ， 单 元 调整 权重 ， 减 小 但 不 是 消除 误差 。 训 练 集中 每 个 实例 的 调整 慢 慢 影响 权重 ， 
以 期 获得 最 佳 值 。 要 记 住 ， 网 络 的 目标 是 总 结 和 识别 输入 的 模式 ， 而 不 是 记 住 训练 集 ， 因 而 
调整 权重 要 像 悠 闲 的 散步 ， 而 不 是 疯狂 疾驰 的 短跑 。 在 足够 多 的 代 以 内 遇 到 足够 多 的 训练 实 
例 之 后 ， 网 络 权重 不 再 有 显著 改变 ， 误 差 也 不 再 减 小 ， 这 个 点 就 是 训练 终止 点 ， 此 时 网 络 已 
经 学 会 在 输入 中 识别 模式 。 

调整 权重 的 技术 被 称 为 通用 的 8 规则 ， 有 两 个 重要 参数 与 应 用 通用 的 8 规则 相关 联 。 第 
一 是 动量 momentum) ， 它 涉及 在 每 个 单元 内 权重 向 某 个 “方向 ”改变 的 趋向 ， 即 每 个 权重 记 
住 自己 是 否 已 经 变 得 更 大 或 更 小 ， 并 且 动 量 设法 使 它 在 相同 的 方向 保持 发 展 。 带 有 高 动量 的 网 
络 对 于 希望 翻转 权重 的 新 的 训练 实例 响应 缓慢 ; 如 果 动 量 低 的 话 ， 人 允许 权重 更 自由 地 振荡 。 


训练 的 最 优化 

虽然 反 向 传播 是 训练 网 络 的 第 一 个 实用 算法 ， 但 它 效 率 低 。 训 练 的 目标 是 要 找到 将 训练 
集 和 (或 ) 验证 集 上 的 误差 减 到 最 少 的 权重 集 。 这 一 类 型 的 问题 属于 最 优化 问题 ， 有 几 种 不 
同 的 方法 可 以 做 到 这 一 点 。 

值得 注意 的 是 ， 这 是 一 个 难题 。 首 先 ， 网 络 有 许多 权重 ， 因 此 ， 需 要 考虑 许多 种 不 同 权 
重 的 可 能 性 。 对 于 有 28 个 权重 的 网 络 〈 假 设 在 隐藏 尾 有 7 个 输入 和 3 个 隐藏 结 点 )， 如 果 尝 
试 每 个 权重 只 有 两 个 值 的 组 合 ， 需 要 测试 2 和 骂 次 组 合 ， 即 超过 250 000 000 次 组 合 ， 因 而 对 于 
每 个 权重 尝试 所 有 10 个 值 的 组 合 代价 会 极其 昂贵 。 

第 二 个 问题 是 对 称 性 。 一 般 来 说 ， 没 有 单一 的 最 优 值 。 事 实 上， 对 于 隐藏 层 有 一 个 以 上 
单元 的 神经 网 络 ， 总 是 有 多 个 最 优 值 (optimal) ， 因 为 在 一 个 隐藏 单元 上 的 权重 可 能 完全 与 
另 一 个 单元 上 的 权重 交织 在 一 起 。 有 多 个 最 优 值 的 问题 使 得 发 现 最 优 结 果 变 得 复杂 。 

发 现 最 优 值 的 一 种 方法 被 称 为 让 山 法 。 从 一 个 随机 权重 集 开 始 ， 然 后 在 每 个 方向 上 采取 
单独 的 一 步 ， 对 每 个 权重 做 一 点 小 的 改变 ， 选 择 出 能 够 最 好 地 减少 误差 的 任何 一 小 步 ， 并 重 
复 这 个 过 程 。 这 就 好 像 一 步 一 步 向 山上 疏 ， 从 而 发 现 山 的 某 处 是 最 高 点 一 样 ， 但 在 许多 情况 
下 ， 你 可 能 结束 于 小 山 包 的 顶峰 而 不 是 高 山 的 顶峰 。 

谎 山 的 另 一 种 方式 是 从 大 步伐 开始 ， 然 后 逐渐 地 减 小 步 幅 〈 巨 人 Jolly Green 可 能 会 比 
一 只 蚂蚁 更 轻松 地 到 达 最 近 的 山峰 )。 一 个 相关 的 算法 被 称 为 模拟 退火 〈simulated anneal- 
ing)， 在 登山 过 程 中 引入 一 点 随机 性 。 随 机 性 以 物理 理学 领域 为 基础 ， 与 晶体 如 何 由 液态 冷 
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却 形成 固态 相关 〔 水 晶 的 形成 是 物理 界 中 一 个 最 佳 实 锣 )。 模 拟 退 火 和 床 山 两 者 都 需要 许多 
次 欠 代 ， 并 且 这 些 反 复 的 迭代 从 计算 角度 看 也 是 昂贵 的 ， 因 为 需要 在 整个 训练 集 上 运行 网 
络 ， 并 且 对 每 一 步 进行 一 次 又 一 次 的 重复 计算 。 

用 于 训练 的 较 好 算法 是 共 力 梯度 (conjugate gradient) 算法 。 这 个 算法 测试 几 个 不 同 的 
权重 集 ， 然 后 推测 最 适当 的 位 置 ， 这 需要 使 用 多 维 空间 几何 学 的 一 些 理念 。 每 个 权重 集 被 视 
为 多 维 空 间 的 一 点 ， 在 尝试 多 个 不 同 的 集合 后 ， 算 法 决定 匹配 这 些 点 的 一 条 多 维 空间 抛物 
线 。 氟 物 线 是 U 形 曲 线 ， 有 惟一 的 最 小 值 (或 最 大 值 )。 然 后 ， 共 辑 梯度 在 这 个 区 域 中 利用 
新 的 权重 集 继 续 进行 训练 。 这 个 过 程 仍然 需要 反复 ; 然而 ， 与 反 向 传播 或 各 种 的 山 方法 相 
比 ， 共 驾 梯度 能 够 更 快 地 产生 较 好 的 值 ， 共 频 梯度 〈 或 它 的 一 些 变 体 ) 是 多 数 数据 挖掘 工 具 
中 训练 神经 网 络 的 首选 方法 。 


学 习 速 率 控 制 权 重 变化 的 快慢 。 当 训练 网 络 时 ， 改 变 学 习 速 率 的 最 佳 方法 是 从 大 的 开 
始 ， 然 后 在 网 络 训练 过 程 中 逐渐 减 小 。 最 初 ， 权 重 是 随机 的 ， 因 此 在 最 佳 权重 附近 出 现 大 的 
振 功 是 非常 有 用 的 。 然 而 ， 当 网 络 逐 渐 靠 近 最 佳 解决 方案 时 ， 学 习 速 率 应 该 减 小 ， 以 便 网 络 
对 最 佳 权 重 进行 精细 地 调整 。 

研究 人 员 已 经 为 训练 神经 网 络 发 明了 数 以 百 计 的 变换 方法 (参见 前 面 “ 训 练 的 最 优化 ” 
部 分 )， 其 中 每 个 方法 都 有 其 优 缺 点 ， 但 它们 都 是 在 寻找 训练 网 络 很 快 达到 最 优 方案 的 技术 。 
有 些 神 经 网 络 包 提供 多 重 训练 方法 ， 允 许 使 用 者 通过 实验 获得 最 佳 方案 。 

采用 任何 训练 技术 的 危险 之 一 是 陷 人 被 称 为 “局 部 最 优 ” 的 某 个 状态 。 当 网 络 为 训练 集 
产生 好 的 结果 ， 而 且 调整 权重 不 再 促进 网 络 的 性 能 时 ， 就 可 能 发 生 这 件 事 情 。 然 而 ， 还 有 一 
些 权重 的 其 他 组 合 与 网 络 的 这 些 权重 显著 不 同 ， 却 产生 非常 好 的 解决 方案 。 这 就 类 似 设法 朴 
到 山顶 的 运动 ， 每 加 都 尝试 选择 最 陡峭 的 道路 ， 却 发 现 仅仅 攀登 到 附近 的 小 山顶 上 ， 因 为 在 
发 现 局 部 最 佳 方案 和 整体 最 佳 方案 之 间 有 一 个 张力 〈tension)。 控 制 学习 速 率 和 动量 有 助 于 
找到 最 佳 解决 办 法 。 


7.4.4 前 债 网 络 和 反 向 传播 网 络 的 启发 


即使 大 类 端的 神经 网 络 包 ， 要 得 到 神经 网 络 的 最 好 输出 结果 仍 需 一 些 努 力 。 本 部 分 涵盖 
了 搭建 网 络 以 获得 好 方案 的 一 些 探索 。 

或 许 ， 最 需要 确定 的 是 隐藏 层 的 单元 数目 。 单 元 越 多 ， 网 络 识别 的 模式 也 越 多 ， 这 会 使 
我 们 力争 建立 更 大 的 隐藏 层 。 然 而 ， 这 样 做 有 一 个 缺陷 ， 网 络 可 能 最 终 会 记 住 它 ， 而 不 是 对 
训练 集 进 行 总 结 。 在 这 种 情况 下 ， 更 多 并 不 意味 着 更 好 。 幸 运 的 是 ， 你 可 以 发 现 什么 时 候 网 
络 被 过 分 训练 : 如 果 网 络 在 训练 集 上 运行 得 很 好 ， 但 在 验证 集 上 运行 得 相当 糟 ， 这 说 明 它 已 
经 记 住 训 练 集 。 

隐藏 层 应 该 是 多 大 呢 ? 没 人 知道 真实 的 答案 。 这 取决 于 数据 、 要 寻找 的 模式 以 及 网 络 的 
类 型 。 因 为 过 度 适应 是 使 用 客户 数据 网 络 的 主要 问题 ， 通 常 ， 隐 藏 层 数目 要 少 于 输入 数目 。 
对 许多 问题 来 沉 ， 一 个 好 的 开端 是 在 隐藏 层 实验 一 个 、 两 个 和 三 个 结 点 ， 这 是 可 行 的 ， 尤 其 
是 现在 训练 神经 网 络 仅 需要 几 秒 或 几 分 ， 而 不 是 数 小 时 的 时 间 。 如 果 增 加 较 多 结 点 改善 网 络 
的 表现 ， 那 么 隐藏 层 更 大 可 能 更 好 。 当 网 络 已 经 被 过 分 训练 的 时 候 ， 需 要 减少 层 的 大 小 ; 如 
果 它 不 足够 准确 ， 就 增加 层 的 大 小 。 然 而 ， 使 用 网 络 进行 分 类 时 ， 最 好 对 每 个 类 从 一 个 隐藏 
结 点 开始 训练 。 
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另 一 个 需要 确定 的 是 训练 集 的 大 小 。 训 练 集 一 定 要 足够 大 ， 足 以 覆盖 每 个 特征 的 有 效 输 
入 范围， 除 此 之 外 ， 对 网 络 的 每 个 权重 ， 需 要 多 个 训练 实例 。 对 于 有 * 个 输入 单元 ， 疡 个 隐 
藏 单元 ，1 个 输出 的 网 络 ， 在 网 络 中 有 疡 * (s+1) + 疡 二 1 个 权重 (每 个 隐藏 层 结 点 有 一 
个 权重 对 应 于 输入 层 的 连接 ， 一 个 作为 偏离 的 附加 权重 ， 然 后 是 一 个 与 输出 层 的 连接 和 它 的 
偏离 )。 例 如 ， 如 果 在 隐藏 层 网 络 中 有 15 个 输入 特征 和 10 个 单元 ， 于 是 在 网 络 中 有 171 个 
权重 。 每 个 权重 至 少 应 该 有 30 个 实例 ， 但 最 好 至 少 有 100 个 实例 ， 所 以 对 于 这 个 例子 , 训 
练 集 至 少 应 该 有 17 100 个 实例 。 

最 后 ， 要 使 用 反 向 传播 训练 算法 从 网 络 中 获得 好 的 解决 方案 ， 学 习 速率 和 动量 参数 是 很 
重要 的 〈 最 好 使 用 共 罗 梯 度 或 类 似 方 法 )。 最 初 ， 学习 速 率 应 该 设 为 高 ， 以 便 对 权重 进行 大 
调整 。 然 后 ， 为 了 精细 调整 网 络 ， 应 该 降低 学 习 速 率 。 动 量 参数 允许 网 络 以 更 快速 度 向 解决 
方案 移动 ， 以 防止 围绕 不 太 有 用 的 权重 振 葛 。 


7.5 选择 训练 集 


训练 集 由 预言 或 分 类 值 已 知 的 一 些 记 录 组 成 。 对 于 所 有 的 数据 挖掘 建 模 ， 选 择 好 的 训练 
集 至 关 重 要 ， 即 使 不 考虑 参与 创造 训练 集 的 其 他 行为 ， 糟 糕 的 训练 集注 定 了 网 络 的 命运 。 幸 
运 的 是 ， 在 选择 好 的 训练 集 时 只 需要 考虑 几 件 事 情 。 


7.5.1 覆盖 所 有 特征 值 


在 所 有 需要 考虑 的 事情 中 最 重要 的 是 ， 训 练 集 需要 覆盖 网 络 可 能 遇 到 的 所 有 特征 取 值 的 
完整 范围 ， 也 包括 输出 。 在 房地产 评估 实例 中 ， 这 意味 着 包括 便宜 的 住宅 和 昂贵 的 住宅 、 大 
住宅 和 小 住宅 ， 以 及 带 有 车 库 的 住宅 和 不 带 车 库 的 住宅 ， 等 等 。 总 的 来 说 ， 对 于 每 个 分 类 特 
征 取 值 和 刀 布 整个 有 序 离散 或 连续 特征 取 值 范围 的 值 ， 训 练 集中 都 应 该 有 相应 的 实例 。 

不 管 这 些 特 征 是 否 确实 被 作为 输入 输送 到 网 络 ， 覆 盖 所 有 特征 值 都 是 正确 的 。 例 如 ， 在 
神经 网 络 中 ， 占 地 面积 大 小 不 可 能 作为 输入 变量 。 然 而 ， 训 练 集 仍 然 应 该 具有 所 有 不 同 占 地 
面积 大 小 的 实例 。 一 个 在 较 小 占 地 面积 上 训练 的 网 络 〈 有 些 可 能 是 价位 定 低 了 ， 而 有 些 是 价 
位 定 高 了 ) 不 可 能 对 豪华 庄园 式 住宅 做 出 出 色 的 工作 。 


7.5.2 特征 数目 


输入 特征 的 数目 会 以 两 种 方式 影响 神经 网 络 。 首 先 ， 输 入 网 络 的 特征 越 多 ， 网 络 就 需要 
越 大 ， 这 样 就 增加 了 过 度 适应 的 危险 和 增 大 了 训练 集 的 大 小 。 其 次 ， 特 征 越 多 ， 将 网 络 收 伍 
到 一 组 权重 所 需 的 时 间 越 长 。 而 且 对 于 太 多 的 特征 ， 权 重 不 大 可 能 达到 最 佳 。 

这 一 变量 的 选择 问题 是 统计 学 家 关心 的 普遍 话题 。 实 际 上 ， 我 们 发 现 决策 树 (在 第 6 章 
中 已 讨论 过 ) 为 选择 最 佳 变量 提供 一 个 好 的 方法 。 图 7-8 显示 的 是 SAS Enterprise Miner 的 
一 个 良好 特征 。 通 过 将 神经 网 络 结 点 连接 到 决策 树 结 点 上 ， 神 经 网 络 可 以 只 使 用 决策 树 选 择 
出 的 变量 。 

另外 一 种 方法 是 使 用 直觉 ， 从 少数 变 元 开始 是 明智 的 。 通 过 实验 尝试 其 他 变量 ， 观 察 哪 
些 变量 能 改善 模型 。 在 许多 情况 下 ， 计 算 能 够 代表 商业 问题 的 特殊 方面 的 那些 新 变量 是 非常 
有 用 的 ， 如 在 房地产 实例 中 ,我们 可 能 从 占 地 面积 大 小 减 去 住宅 的 大 小 来 计算 院子 的 大 小 。 
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要 将 神经 网 络 结 点 连接 到 决策 树 结 点 就 可 以 了 


7.5.3 训练 集 的 大 小 


网 络 中 的 特征 越 多 ， 为 覆盖 数据 模式 的 有 效 范围 需要 的 训练 实例 就 越 多 。 不 幸 的 是 ， 没 
有 简单 的 规则 表示 特征 数目 和 训练 集 大 小 之 间 的 关系 。 然 而 ， 一 般 情况 下 ， 最 少 需要 有 几 百 
个 实例 支撑 每 个 具有 有 效 范 围 的 特征 ， 当 然 数 千 个 也 不 是 不 切实 际 的 。 作 者 曾经 处 理 过 只 有 
6 个 或 7 个 输入 的 神经 网 络 ， 但 是 ， 它 的 训练 集 包含 了 数 十 万 个 列 。 

当 训 练 集 不 够 大 的 时 候 ， 神 经 网 络 倾向 于 过 度 适 应 数据 。 当 训练 实例 比 网 络 权重 还 少 
时 ， 过 度 适 应 肯定 会 发 生 。 这 将 带 来 一 个 问题 ， 就 是 网 络 在 训练 集 上 运转 非常 好 ， 但 是 在 未 
见 数据 上 则 遭遇 惊人 的 失败 。 

当然 ， 非 常 大 的 训练 集 也 有 不 利 的 一 面 ,, 它 需要 花费 较 长 的 时 间 训 练 神 经 网 络 。 在 给 定 
的 时 间 内 ， 为 了 得 到 较 好 的 模型 ， 可 以 使 用 较 少 输入 特征 和 较 小 的 训练 集 ， 并 且 用 不 同 的 特 
征 组 合 和 网 络 拓扑 进行 实验 ， 而 不 是 使 用 最 大 的 训练 集 〈 使 用 最 大 的 训练 集 就 可 能 没有 时 间 
做 实验 )。 


7.5.4 输出 数目 


在 多 数 训练 实例 中 ， 通 常 的 情况 是 : 参与 进来 的 输入 比 给 出 的 输出 多 得 多 ， 因 此 好 的 输 
人 覆盖 范围 导致 好 的 输出 覆盖 范围 。 然 而 ， 对 于 网 络 的 所 有 可 能 的 输出 值 ， 有 许多 实例 是 很 
重要 的 ; 除 此 之 外 ， 对 每 个 可 能 的 输出 其 训练 实例 数目 应 该 在 数量 上 大 体 相 当 。 当 决定 什么 
可 以 作为 训练 集 的 时 候 ， 这 可 能 是 很 关键 的 。 

例如 ， 如 果 神 经 网 络 被 用 于 探测 罕见 但 很 重要 的 事件 一 一 如 柴油 机 故障 率 、 信 用 卡 的 其 
诈 使 用 或 者 谁 将 响应 家 庭 债券 信用 度 的 计划 一 一 那么 训练 集 必须 有 这 些 罕 见 事件 的 足够 多 实 
例 。 有 效 数 据 中 的 随机 样本 可 能 并 不 够 ， 因 为 普通 的 例子 会 淹没 罕见 实例 。 为 了 解决 这 个 问 
题 ， 训 练 集 需 要 通过 过 度 采样 罕见 案例 从 而 达到 平衡 。 对 于 这 类 问题 ， 由 10 000 个 “好 ” 
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的 实例 和 10 000 个 “ 坏 的 ”实例 组 成 的 训练 集 ， 比 随机 挑选 100 000 个 好 例子 和 工 000 个 坏 
例子 组 成 的 训练 集 效果 会 更 好 。 毕 竟 ， 当 使 用 随机 抽取 样本 的 训练 集 时 ， 神 经 网 络 可 能 会 忽 
略 输入 ， 直 接 标 示 “ 好 的 "， 并 且 接 近 99% 的 时 间 都 正确 。 对 于 “训练 集 越 大 就 越 好 ”这 一 
普遍 规则 而 言 ， 这 是 一 个 例外 。 

提示 : 神经 网 络 训练 集 必 须 足 够 大 ， 以 便 能 履 盖 全 部 特征 的 取 值 。 对 于 每 个 输入 特 

征 ， 就 算 不 需要 数 百 或 数 千 ， 也 至 少 需要 十 几 个 实例 。 对 于 网 络 的 输出， 你 要 确信 值 

会 平均 分 布 。 这 是 一 个 较 少 的 训练 集 实例 实际 改善 结果 的 案例 ， 当 你 想 要 训练 它 识别 

“ 坏 ” 实 例 时 ， 不 会 被 网 络 中 的 “好 ”例子 所 淖 没 。 训 练 集 的 大 小 也 受 运 行 模型 所 使 

用 机 器 能 力 的 影响 ， 当 训练 集 很 大 的 时 候 ， 神 经 网 络 需要 较 长 的 时 间 加 以 训练 ， 这 些 

时 间 也 许 用 来 改善 对 不 同 的 特征 、 输 入 的 映射 函数 和 网 络 参 数 下 的 实验 会 更 好 。 


7.6 准备 数据 


准备 输入 数据 经 常 是 使 用 神经 网 络 最 复杂 的 内 容 。 这 种 复杂 人 性 一 部 分 体现 在 数据 挖 据 试 
图 选择 正确 数据 和 正确 实例 ， 另 外 一 部 分 体现 在 需要 把 每 个 域 映射 到 适当 的 范围 一 记 住 ， 
使 用 有 限 的 输入 范围 有 动 于 帮助 网 络 较 好 地 识别 模式 ， 有 一 些 神经 网 络 软件 包 通过 使 用 友好 
的 图 形 模 式 界 面 来 提供 方便 的 转换 。 因 为 进入 网 络 的 数据 格式 对 神经 网 络 执行 性 能 有 很 大 的 
影响 ， 我 们 来 看 看 映射 数据 的 普遍 方法 。 第 17 章 包 含 关 于 数据 准备 的 另外 一 些 材料 。 


7.6.1 具有 连续 数值 的 特征 


有 些 特 征 具 有 连续 数值 ， 通 常 位 于 已 知 的 最 小 界限 和 最 大 界限 之 间 。 这 类 特征 的 例子 
是 : 

*。 美 元 数额 〈 销 售 价格 、 月 结余 额 、 周 销售 量 、 收 入 等 ) 

“平均 数 〈 月 平均 结余 额 、 销 售 量 平均 数 等 ) 

。 比率 〈 债 务 收 入 比 、 价 格 收入 比 等 ) 

*。 物理 度量 (生活 圈 、 温 度 等 ) 

房地产 评估 实例 显示 了 一 个 处 理 连续 特征 的 好 方法 。 当 这 些 特征 落 人 被 预先 定义 的 最 小 
值 (min) 和 最 大 值 (max) 之 间 时 ， 数 值 能 被 按 比 例 缩 放 到 一 个 合理 的 范围 中 ， 比 如 应 用 
如 下 的 计算 ; 


mapped _value=2* (original _value~min) / (max~min+ 1) 一 1 


这 个 转换 ( 减 去 最 小 值 ， 除 以 范围 ， 乘 以 2 再 减 1) 产生 -1 工 到 上 之 间 的 一 个 数值 (mapped 
value) ， 该 值 遵循 与 初 值 (original _value) 同样 的 分 布 。 在 许多 案例 中 ， 该 转换 工作 良好 ， 但 是 需 
要 一 些 额 外 的 考虑 。 

首先 要 考虑 的 是 ， 训 练 集 变 量 的 取 值 范围 可 能 不 同 于 被 评价 数据 的 范围 。 当 然 ， 可 以 通 
过 确保 变量 值 在 训练 集中 有 代表 ， 以 尽量 避免 这 种 情况 。 然 而 ， 这 种 理想 的 情况 并 不 总 是 可 
行 的 。 有 人 可 能 在 附近 建造 生活 空间 是 $ 000 平方 英尺 的 新 住宅 ， 这 可 能 导致 房地产 评估 神 
经 网 络 变 为 无 用 。 解 决 这 个 问题 有 多 种 方法 : 

“。 制定 较 大 范围 的 计划 。 在 训练 集中 ， 住 宅 的 生活 空间 范围 被 设置 为 714 平方 英 斥 到 

4185 平方 英尺 。 但 我 们 可 以 不 使 用 这 些 值 作为 最 小 值 和 最 大 值 ， 而 是 允许 有 一 定 弹 
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性 ， 比 如 设 为 $S00 到 5000。 

。 放 弃 超出 范围 的 值 。 在 训练 集中 ， 一 旦 启用 超出 数值 范围 的 外 围 数据 ， 我 们 对 结果 的 
信心 就 更 少 。 记 住 ， 仅 将 网 络 用 于 预定 义 输入 值 的 范围 ， 当 为 控制 制造 过 程 使 用 神经 
网 络 的 时 候 ， 这 一 点 尤其 重要 。 不 正确 的 粗糙 结果 会 带 来 灾难 性 后 果 。 

。 低 于 最 小 值 的 值 用 最 小 值 代替 ， 高 于 最 大 值 的 值 用 最 大 值 代 替 。 因 此 ， 所 有 超过 
4 000 平 方 英尺 的 住宅 视 为 4 000。 这 在 许多 情况 下 是 有 效 的 。 然 而 ， 住 宅 价格 与 生活 
空间 大 小 密切 相关 ， 所 以 具有 超过 最 大 住宅 20% 生活 空间 的 住宅 (所 有 其 他 的 是 相 
同 的 ) 大 约会 多 花费 20% 的 钱 。 在 其 他 情况 下 ， 限 定 有 关 的 数值 效果 很 好 。 

。 把 最 小 值 映射 到 - 0.9， 把 最 大 值 映 射 到 0.9， 从 而 代替 -1 和 1。 

。 或 者 ， 最 可 能 的 是 无 需 担忧 。 大 多 数值 靠近 0 是 很 重要 的 ， 几 个 例外 或 许 将 不 会 造成 

重大 的 冲击 。 

图 7-9 展示 由 连续 特征 带 来 的 另外 一 个 问题 : 数值 非 对 称 分 布 。 在 这 一 数据 分 布 中 ， 几 
乎 所 有 的 收入 都 低 于 $100 000， 但 范围 是 从 $10 000 到 $1 000.000。 按 照 建议 比例 ， 映 射 
收入 数值 $30 000 为 -0.96, .收入 $65 000 对 应 -0.89， 几 乎 没有 差别 ， 但 对 销售 应 用 ， 这 
个 收入 差别 是 很 明显 的 。 另 一 方面 ，$250 000 和 $800 000 分 别 对 应 -0.51 和 +0.60， 有 
很 大 的 差异 ， 尽 管 这 个 收入 差异 可 能 并 不 十 分 明显 。 收 入 向 低 端 高 度 倾斜 ， 这 会 让 神经 网 络 
难于 利用 收入 字段 ， 非 对 称 分 布 能 阻碍 网 络 有 效 地 使 用 重要 的 字段 羔 非 对 称 分 布 影响 神经 网 
络 但 不 影响 决策 树 ， 因 为 神经 网 络 实际 上 使 用 数值 进行 计算 ， 而 决策 树 只 使 用 数值 的 排序 
(等 级 )。 


$100 000 $200 000 $300 000 $400 000 $500 000 $600 000 $700 000 $800 000 $900 000 $1 000 000 
收入 


图 7-9 ”家庭 收入 提供 了 非 对 称 分 布 的 实例 。 几 乎 所 有 值 落 
在 开始 的 10% 范 围 内 〈 收 入 小 于 $100 000) 


有 几 种 方法 可 以 解决 这 个 问题 。 最 普通 的 做 法 是 拆 分 收入 特征 ， 把 它 分 成 不 同 范围 ， 这 
被 称 为 将 字段 离散 化 〈discretizing) 或 分 箱 (binning)。 图 7-9 表示 了 将 收入 分 解 成 10 个 等 
值 的 范围 ， 但 是 这 毫 无 用 处 ， 事 实 上 ， 所 有 值 落 入 前 两 个 范围 。 五 等 分 值 提供 了 较 好 的 选择 
范围 : 

。$10 000 一 $17 999 ”很 低 (-1.0) 

。$18 000 一 $31 999 ” 低 (-0.5) 

。$32 000 一 $63 999 ”中 等 (0.0) 
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。$$64 000 一 $99 999 ”高 (+0.5) 

。 当 100 000 及 以 上 很 高 (+1.0) 

这 个 转换 存在 信息 丢失 ， 一 个 收入 $65 000 的 家 庭 现在 看 起 来 完全 像 一 个 收入 $98 000 
的 家 庭 。 但 另 一 方面 ， 十 分 巨大 的 值 不 会 给 神经 网 络 造成 混乱 。 

当然 还 有 其 他 的 方法 。 例 如 ， 取 对 数 是 处 理 宽 范围 数值 的 好 办 法 。 还 有 一 个 方法 是 将 变 
量 归 一 化 〈 减 掉 均 值 和 除 以 标准 差 )。 归 一 化 的 值 时 常 在 -2 和 +2 之 间 ( 即 对 于 多 数 变 量 ， 
几乎 所 有 数值 落 人 均值 的 两 个 标准 差 之 间 )。 对 神经 网 络 来 说 ， 归 一 化 变量 通常 是 一 个 好 方 
法 。 然 而 ， 因 为 大 的 异常 值 使 标准 差 变 大 ， 所 以 一 定 要 小 心地 使 用 。 因 此 ， 当 有 大 的 异常 值 
时 ， 许 多 归 一 化 数值 将 会 落 人 很 小 的 范围 ， 使 网 络 很 难 区 分 它们 。 


7.6.2 具有 有 序 、 离 散 (整数 ) 数值 的 特征 


连续 特征 能 归档 成 有 序 的 离散 数值 。 具 有 有 序 离 散 数值 特 征 的 其 他 例子 包括 : 

* 计数 〈 孩 子 的 数目 、 购 买 物品 的 数量 、 购 买 后 的 月 数 等 ) 

“ 年 龄 

“已 排序 的 类 〈 低 、 中 、 高 ) 

像 连续 型 特征 一 样 ， 它 们 也 有 最 大 值 和 最 小 值 。 例 如 ， 通 常年 龄 范围 大 约 从 0 到 100， 
但 是 精确 的 范围 可 能 依赖 于 使 用 的 数据 。 孩 子 的 数目 可 能 从 0 到 4， 超 过 4 被 看 做 4。 准备 
此 类 字段 很 简单 : 首先 ， 计 算出 不 同 值 的 个 数 ， 并 且 在 某 一 范围 〈 如 从 0 到 1)， 给 每 个 值 
分 配 一 个 比例 分 数值 ， 例 如 ， 如 果 有 5 个 截然 不 同 的 值 ， 就 把 它们 映射 为 0，0.25，0.50， 
0.75 和 1， 如 图 7-10 所 示 。 注 意 ， 把 数值 映射 到 这 样 的 单元 区 间 保 持 了 它们 的 排序 ， 这 是 
该 方法 的 一 个 重要 方面 ， 意 昧 着 信息 没有 丢失 。 


一 1.0 一 0.8 一 0.6 一 0.4 一 0.2 0D0.0 0.2 0.4 D.6 0.8 1.0 
没有 孩子 1 个 孩子 2 个 孩子 3 个 孩子 4 个 及 
更 多 孩子 


图 7-10 当 编 码 具 有 内 在 排序 时 ， 将 它们 映射 到 单元 区 间 上 


也 可 以 将 范围 划分 为 不 等 的 部 分 ， 一 个 被 称 为 温度 计 编 码 (thermometer code) 的 实 
例 是 : 
0->~0000 三 0Z16=0.0000 
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1->1000=87Z16=0.5000 

2->1100= 12/16=0.7500 

3-~1110= 14716=0.8750 

这 个 案例 名 字 的 起 因 是 ，!1 的 序列 从 一 边 开 始 ， 上 升 到 某 个 值 ， 就 像 温 度 计 内 的 示 。 然 
后 这 个 序列 被 解释 成 以 二 进 制 表示 的 十 进 制 数 。 温 度 计 编 码 对 学 术 评 级 和 债券 评估 是 有 用 的 
技术 ， 因 为 其 中 一 端 标 度 的 差异 不 如 另 一 端 明 显 。 

例如 ， 对 于 许多 销售 应 用 ， 没 有 孩子 与 有 1 个 孩子 有 质 的 差别 。 然 而 ， 有 3 个 孩子 和 有 
4 个 孩子 的 差别 就 可 以 忽略 。 使 用 温度 计 编 码 ， 孩 和子 变 量 的 数目 可 能 映射 如 下 : 0 〈 对 应 于 0 
个 孩子 )，0.5 (对 应 于 1 个 孩子 ) ，0.75 (对 应 于 2 个 孩子 ) ，0.875 (对 应 于 3 个 孩子 ) ， 等 
等 。 对 于 分 类 变量 ， 经 常 更 容易 将 映射 值 保持 在 0 到 1 的 范围 内 ， 这 是 合理 的 。 不 过 也 可 以 
将 范围 扩展 到 - 1 到 1， 只 需要 把 值 乘 以 2 减 上 即 可 。 

温度 计 编 码 是 将 以 前 信息 包括 进 编码 系统 的 一 种 方法 ， 保 持 特定 的 编码 值 旦 紧密 靠拢 ， 
原因 是 你 感觉 这 些 编码 数值 应 该 紧密 靠拢 在 一 起 。 这 类 知识 能 改善 神经 网 络 的 结果 一 一 不 要 
让 它 发 现 你 已 经 知道 的 信息 。 灵 活 地 把 数值 映射 到 单元 区 间 上 ， 以 便 彼 此 接近 的 编码 与 你 对 
它们 应 该 接近 程度 的 直觉 相 匹配 。 


7.6.3 具有 分 类 数值 的 特征 


分 类 特征 是 数值 的 无 序列 表 (unordered list) 。 它 们 不 同 于 有 序列 表 ， 因 为 其 中 没有 需 
要 保持 的 排序 且 不 适宜 引入 上 顺序。 通常 有 许多 数据 属于 分 类 数值 的 实例 ， 例 如 ; 

。 性 别 、 婚 姻 状 况 

。 状 态 代码 

。 产品 代码 

。 邮 政 编码 

在 美国 ， 虽 然 邮政 编码 看 起 来 是 一 组 数字 ， 但 它们 实际 上 代表 的 是 离散 的 地 理 区 域 ， 并 
且 代 码 本 身 提 供 的 地 理 信 息 很 少 。 没 有 理由 认为 10014 比 94117 更 接近 02116， 尽 管 从 数字 
上 看 非常 靠近 。 数 字 代 表 的 只 是 与 地 理 区 域 相关 联 的 离散 的 名 字 。 

处 理 分 类 特征 基本 上 有 三 种 不 同方 法 。 第 一 种 方法 是 ， 视 编码 为 离散 的 有 序 值 ， 使 用 前 
面 讨论 的 方法 进行 映射 。 不 幸 的 是 ， 神 经 网 络 不 能 理解 这 是 无 序 的 编码 。 因 此 ， 婚 姻 状 况 的 
五 个 代码 〈(“ 单 身 ” “离婚 ”" “已 婚 ”"“ 守 寡 ” 和 “未 知 ") 会 分 别 被 映射 到 -1.0，- 0.5， 
0.0，+0.5，+1.0。 

从 神经 网 络 角度 看 来 ,“ 单 身 ” 和 “未 知 ” 两 者 相差 甚 远 ， 然 而 “离婚 ”与 “已 婚 ” 相 
当 接近 。 对 于 有 些 输入 字段 ， 这 种 隐 含 的 排序 可 能 不 会 产生 多 大 的 效应 。 而 在 有 些 案例 中 ， 
数值 间 彼 此 有 某 种 相关 性 ， 隐 含 的 排序 混淆 了 网 络 。 

警告 : 当 使 用 神经 网 络 中 的 分 类 变量 时 ， 把 变量 映射 为 数值 要 很 小 心 。 了 映射 引进 了 

变量 的 排序 ， 神 经 网 络 会 考虑 到 这 种 排序 ， 即 使 排序 本 身 没有 任何 意义 。 

第 二 种 处 理 分 类 特征 的 方法 是 把 类 分 解 成 标志 ， 每 个 类 有 一 个 标志 。 假 定性 别 有 三 个 不 
同 的 值 (男性 、 女 性 和 未 知 ) ， 表 7-3 显示 三 个 标志 如 何 使 用 一 个 被 称 为 中 选 工 的 方法 来 
对 这 些 数 值 进 行 编码 。 可 以 通过 除去 性 别 未 知 标 志 从 而 减少 标志 的 数目 ， 这 种 方法 称 为 
N-1 中选 1 的 编码 。 
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表 7-3 使 用 N 中 选 1 编码 和 N 一 1 中 选 1 编码 处 理性 别 


忻 别 未 知 标志 | 男性 标志 女性 标志 
-1.0 +1.0 -1.0 
一 1.0 二 1.0 
一 .0 


为 什么 要 这 么 做 昵 ? 现在 ， 我 们 已 经 放大 了 输入 变量 的 数目 ， 这 对 神经 网 络 来 说 通常 是 
一 件 坏事 情 ， 不 过 ， 这 些 编码 方案 是 惟一 能 够 除去 数值 隐 含 排序 的 方法 。 

第 三 种 方法 是 ， 用 有 关 编 码 的 数字 型 数据 蔡 换 编码 本 身 。 不 在 模型 中 包括 邮政 编码 ， 而 
是 包括 不 同 的 人 口 调 查 字 段 ， 如 中 值 收 入 或 有 孩子 的 家 庭 比例 。 另 外 一 个 可 能 性 是 ， 把 在 分 
类 变量 层次 上 汇总 出 的 历史 信息 包括 进来 。 一 个 例子 是 用 于 预测 流失 的 模型 中 ， 包 含 按照 邮 
政 编码 给 出 的 历史 流失 率 。 

提示 : 当 在 神经 网 络 中 使 用 分 类 变量 时 ， 尽 量 用 描绘 它们 的 数字 变量 替换 之 ， 例 如 

在 人 口 调查 区 域 的 平均 收入 ， 在 一 个 邮政 编码 ( 穿 透 度 ) 内 的 客户 比例 、 手 机 客户 

的 历史 流失 率 或 定价 计划 的 基本 成 本 。 


7.6.4 其 他 类 型 的 特征 


有 些 输入 特征 可 能 不 能 直接 归 和 人 这 三 个 类 。 对 于 复杂 的 特征 ， 需 要 提取 有 意义 的 信息 和 
使 用 上 述 技巧 之 一 描述 结果 。 记 住 ， 神 经 网 络 的 输入 通常 介 于 -1 和 1 之 间 。 

日 期 是 需要 以 特别 方式 处 理 的 一 个 很 好 的 数据 实例 。 任 何 日 期 或 时 间 都 能 相对 于 某 个 固 
定点 以 天 数 或 秒 数 等 数字 描述 ， 它 们 可 以 被 映射 并 直接 输入 到 网 络 中 。 然 而 ， 如 果 日 期 是 用 
于 转账 ， 那 么 每 周 的 第 几 天 和 每 年 第 几 月 可 能 比 实际 日 期 更 重要 ， 比 如 ， 月 份 会 对 发 现 数据 
的 季节 性 趋势 很 重要 。 可 能 需要 从 日 期 中 提取 这 类 信息 ， 并 且 把 它 输入 网 络 作为 实际 日 期 的 
蔡 代 或 附加 。 

住址 字段 或 任何 文本 字段 具有 相似 的 复杂 性 。 将 地 址 直接 送信 人 网络 通 常 是 无 用 的 ， 虽 然 
能 找到 一 种 好 办 法 将 整个 字段 映射 到 单一 值 。 地 址 可 能 包含 邮政 编码 、 城 市 名 、 州 和 门牌 
号 ， 所 有 这 些 可 能 都 是 有 用 的 特征 ， 但 作为 一 个 整体 的 地 址 字段 就 是 无 用 的 。 


7.7 解释 结果 


神经 网 络 工具 担当 解释 结果 的 作用 。 当 估计 连续 值 时 ， 输 出 常常 需要 按 比例 换算 回 正确 的 
范围 。 例 如 ， 用 网 络 来 计算 住宅 的 价值 ， 在 训练 集中 ， 输 出 值 已 经 被 设 定 ， 因 此 $103 000 映 射 
到 -1 而 $250 000 映 射 到 1。 如 果 模 型 稍 后 被 应 用 到 另外 一 个 住宅 并 且 和 输出 是 0.0， 那 么 我 们 
能 够 断定 其 对 应 值 是 $176 500， 恰 好 在 最 小 值 和 最 大 值 之 间 。 这 个 逆转 换 使 神经 网 络 估计 连续 
数值 变 得 特别 容易 。 虽 然 这 一 步 经 常 不 是 必需 的 ， 尤 其 是 当 输出 层 使 用 线性 转换 函数 的 时 候 。 

对 于 二 元 或 分 类 输出 变量 ， 方 法 仍然 是 把 用 作 训 练 网 络 的 转换 进行 逆 变 换 。 因 此 ， 如 果 
指定 “流失 ” 值 为 1,“ 不 流失” 值 为 ~-1， 那么 靠近 1 的 值 表示 流失 ， 靠 近 - ! 的 值 表 示 不 
流失 。 当 有 两 个 结果 时 ， 输 出 的 含义 取决 于 用 来 训练 网 络 的 训练 集 。 因 为 网 络 已 经 学 会 将 误 
差 减 到 最 小 ， 网 络 训练 期 间 产 生 的 平均 值 通常 接近 训练 集 当 中 的 平均 值 。 解 决 这 个 问题 的 一 
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个 方法 是 网 络 找到 的 第 一 个 模式 是 平均 值 。 因 此 ， 如 果 最 初 的 训练 集 有 30% 的 流失 和 50% 
的 不 流失 ， 那 么 ， 网 络 在 训练 集 实 例 上 产生 的 平均 值 要 接近 0.0。 比 0.0 高 的 值 更 像 流失 
比 0.0 小 的 像 不 流失 。 如 果 最 初 训练 集 有 10% 的 流失 ， 那 么 更 合适 的 分 界 值 应 该 是 -0.8 而 
不 是 0.0 (-0.8 是 从 -1 到 1 上 距离 的 10%)。 因 此 ， 在 这 种 情况 下 ， 网 络 输出 看 起 来 确实 很 
像 概率 。 然 而 ， 概 率 在 训练 集中 依赖 于 输出 变量 的 分 布 。 

还 有 另 一 个 方法 就 是 对 数值 赋予 置信 度 。 这 个 置信 度 会 把 网 络 的 实际 输出 看 做 流失 倾 
向 ， 如 表 7-4 所 示 。 


表 7-4 _NN 输出 的 类 别 和 置信 和 度 水 平 


输 出 值 类 别 置 信 度 
-1.0 A 100% 
-0.6 A 80% 
-0.02 A 51% 
+0.02 B 51% 
+0.6 B 80% 
+1.0 B 100% 


对 于 二 元 数值 ， 也 可 以 创建 产生 两 个 输出 的 网 络 ， 每 个 对 应 于 一 个 数值 。 在 这 种 情况 
下 ， 每 个 输出 代表 “类 是 正确 的 ”迹象 之 强 弱 程度 。 然 后 选 出 的 类 会 是 有 较 高 值 的 那 一 个 ， 
其 置信 度 是 基于 两 个 输出 强 弱 程度 的 某 个 函数 。 当 两 个 输出 结果 不 同 的 时 候 ， 这 个 方法 尤其 
有 价值 。 

提示 : 由 于 神经 网 络 产生 连续 数值 ， 网 络 的 输出 可 能 难以 解释 分 类 结果 (在 分 类 中 

使 用 )。 校 正 给 出 的 最 佳 方法 是 ， 在 验证 集 上 运行 网 络 ， 完 全 与 训练 集 分 开 ， 并 且 

使 用 验证 集 产 生 的 结果 来 校正 网 络 给 出 的 分 类 结果 。 在 许多 情况 下 ， 网 络 会 为 每 个 

类 分 配 独立 的 输出 结果 ， 亦 即 ， 每 个 类 对 应 一 个 倾向 。 即 使 是 分 立 的 给 出， 仍然 需 

要 用 验证 集 校正 输出 。 

当 要 考虑 两 个 以 上 选择 项 的 时 候 ， 方 法 类 似 。 例 如 ， 一 个 长 途 电信 公司 尝试 瞄准 一 个 新 
客户 集 ， 并 提供 三 种 目标 服务 ; 

。 对 所 有 的 国际 呼叫 打折 扣 

。 对 非 国际 的 所 有 长 途 呼 叫 打折 扣 

。 对 预先 确定 的 客户 集 的 呼叫 打折 扣 

电信 公司 是 要 对 三 个 包 中 任意 一 个 包 的 客户 提供 促销 。 但 由 于 促销 是 昂贵 的 ， 所 以 电信 
公司 需要 为 适当 的 客户 选择 正确 的 服务 ， 以 便 使 活动 有 好 的 收益 。 对 所 有 客户 提供 全 部 的 三 
种 产品 代价 是 昂贵 的 ， 甚 至 更 糟 的 是 ， 这 可 能 混淆 接受 者 ， 减 少 响应 率 。 

电信 公司 尝试 将 产品 销售 给 一 组 客户 ， 他 们 收 到 三 个 产品 但 只 允许 对 其 中 的 一 个 做 出 响 
应 。 目 的 是 使 用 这 个 信息 建立 模型 预测 每 个 产品 对 客户 的 吸引 力 。 训 练 集 使 用 从 销售 活动 中 收 
集 的 数据 ， 并 且 各 项 编码 一 般 设 置 如 下 : 无 响应 ~ 一 1.00， 国 际 ~ -0.33， 国 内 一 +0.33， 特 
别 号 码 ~+1.00。 在 使 用 有 关 客 户 信息 训练 神经 网 络 后 ， 电 信 公 司 开始 应 用 模型 。 

但 是 ， 应 用 模型 的 过 程 并 不 像 计 划 的 那样 好 ,许多 客户 呈 秘 状 围绕 在 用 于 训练 网 络 的 四 
个 值 周 围 。 而 且 除 了 无 响应 者 ( 占 大 多 数 ) 之 外 ， 许 多 情况 下 ， 网 络 返回 像 0.0 和 0.5 这 样 
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的 中 间 值 。 该 怎么 办 呢 ? 
首先 ， 电 信 公 司 应 该 使 用 验证 集 来 解释 输出 值 。 通 过 用 验证 集中 发 生 的 事情 解释 网 络 的 结 
果 ， 它 可 以 找到 正确 的 范围 ， 将 网 络 结果 返回 到 营销 部 门 。 图 7-11 所 示 的 就 是 这 样 的 过 程 。 


1.0 


0.0 


-1.0 
图 7-11 在 来 自 验 证 集 的 10 个 实例 上 运行 神经 网 络 有 助 于 确定 如 何 解 释 结果 


对 于 这 种 情况 ， 另 外 一 种 思路 是 ， 真 的 把 网 络 同 时 用 于 预测 三 种 不 同 的 事情 ， 即 接受 者 
是 否 将 对 每 个 活动 做 出 响应 。 这 强烈 建议 我 们 ， 网 络 的 较 好 结构 应 该 有 三 个 输出 : 对 国际 计 
划 、 长 途 计 划 和 特定 号 码 计划 响应 的 倾向 ， 然 后 用 测试 集 来 决定 无 响应 者 的 界限 在 娜 里 。 另 
一 个 可 能 的 选择 是 ， 对 每 个 输出 分 别 建 模 ， 组 合 不 同 模型 的 结果 以 选 出 合适 的 营销 方案 。 


7.8 时 间 序 列 神经 网 络 


在 许多 商业 问题 中 ， 数 据 自然 落 人 时 间 序 列 。 此 类 序列 的 实例 包括 IBM 股票 的 收盘 价 
格 、 每 日 瑞士 法 妇 兑 换 美元 的 汇率 值 ， 或 者 对 未 来 任何 给 定 日 期 仍 活跃 的 客户 数目 的 预测 。 
对 于 金融 时 间 序 列 ， 那 些 能 够 预测 下 一 个 数值 或 序列 是 否 正在 向 上 或 向 下 发 展 的 人 ， 比 其 他 
的 投资 者 有 更 大 的 优势 。 时 间 序 列 不 止 在 金融 界 占 尽 风 头 ， 也 可 用 在 其 他 领域 ， 如 预报 和 过 
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程控 制 。 但 金融 时 间 序 列 的 研究 是 最 深 人 的 ， 因 为 预言 性 能 力 的 小 小 优势 可 以 转变 为 很 大 的 
收益。 

神经 网 络 很 容易 被 时 间 序 列 分 析 所 采用 ， 如 图 7-12 所 示 。 网 络 在 时 间 序 列 数据 上 进行 
训练 ， 从 数据 最 古老 的 点 开始 ， 然 后 移 到 第 二 个 最 古老 的 点 ， 并 且 最 古老 的 点 在 输入 层 中 走 
到 下 一 个 单元 集 ， 如 此 反复 进行 。 像 前 馈 、 反 向 传播 网 络 一 样 ， 网 络 训练 尝试 在 每 一 步 中 预 
测序 列 的 下 一 个 值 。 


时 间 标 志 


历史 单元 


一 一 一 数值 1， 时间/ 


隐藏 导 


数值 1， 时 间 盖 ! 


数值 1， 


一 一 数值 2， 时 间 ; 数值 1， 时 间 六 1 


数值 2， 时 间 六 1 
数值 2， 时 间 夺 2 


图 7-12 ”时 滞 神 经 网 络 记 住 以 前 少数 训练 例子 ， 并 且 用 它们 作为 网 络 的 输 和 人， 
然后 网 络 像 前 镇、 反 向 传播 网 络 一 样 工作 


注意 ， 时 间 序 列 网 络 不 限于 单一 时 间 序 列 的 数据 ， 它 能 处 理 多 重 输入 。 例 如 ， 为 预测 瑞 
十 法郎 竟 美元 的 汇率 值 ， 其 他 的 时 间 序 列 信息 可 能 被 包括 在 内 ， 如 前 一 日 的 交易 量 、 日 元 总 
美元 的 汇率 、 证 券 交 易 所 收盘 值 ， 以 及 交易 当天 是 周 几 ， 等 等 。 此 外 ， 非 时 间 序 列 数据 ， 如 
全 国 范围 内 调查 报告 的 一 段 时 间 内 的 通货 膨胀 率 可 能 也 是 候选 的 特征 。 

历史 数据 的 数量 控制 网 络 所 能 识别 模式 的 跨度 。 例 如 ， 在 网 络 上 保持 10 个 历史 单元 来 
项 测 受 欢迎 股票 的 收盘 价格 ， 将 允许 网 络 识别 在 未 来 2 周 内 〈 因 为 交易 价 只 在 工作 日 提供 ) 
发 生 的 模式 。 但 依赖 这 个 网 络 预测 未 来 3 个 月 的 数值 可 能 不 是 个 好 主意 ,我 们 也 不 推荐 这 
样 做 。 

实际 上 ， 通 过 修改 输入 ， 前 馈 网 络 能 像 时 滞 神 经 网 络 一 样 工作 。 考 虑 过 去 10 天 的 历史 
时 间 序 列 ， 如 表 7-5 所 示 ， 网 络 将 包括 两 个 特征 : 周 几 和 收盘 价格 。 


免费 领取 更 多 资源 V: 3446034937 


人 工 字 经 网 络 了 67 
表 7-5 时 间 序 列 
蛋 期 元 素 周 “ 几 收盘 价格 
1 1 $40.25 
2 2 $41 .00 
3 3 中 39.25 
4 4 $39.75 
5 5 $$40.50 
6 $40.50 
7 2 $40.75 
8 3 书 41.25 
9 4 $42.00 
10 5 $41.50 


创造 一 个 时 间 延 退 为 3 的 时 间 序 列 需 要 为 历史 数据 增加 新 的 特征 : 延迟 日 的 收盘 价 〈 周 
几 不 需要 考虑 ， 因 为 它 的 确 没 有 改变 )。 结 果 见 表 7-6。 现 在 ， 这 个 数据 可 以 输入 到 不 需要 
特殊 时 间 序 列 支 持 的 前 馈 和 反 向 传播 网 络 中 。 


表 7-6 带 有 时 间 延 迟 的 时 间 序 列 


日 期 元 素 周 “ 几 和 收 盘 价 上 日 收盘 价 前 日 收盘 价 

1 1 $40.25 
2 2 $41.00 $40.25 
3 3 $39.25 $41.00 $40.25 
4 4 $$39 .75 $39.25 $41.00 
S S $40 .50 $39.75 $39.25 
6 上 $40.50 $40.50 $39.75 
7 2 $40 ,75 $40.50 $40.50 
8 3 $41.25 $40.75 $40.50 
9 4 $42.00 $41.25 $40.75 

10 5$ $41.50 $42.00 书 41.25 


7.9 如 何 了 解 在 神经 网 络 内 部 正在 运行 的 事情 


神经 网 络 是 不 透明 的 。 即 使 知道 遍及 网 络 各 处 所 有 结 点 的 所 有 权重 ， 也 不 能 提供 网 络 为 
什么 产生 某 个 结果 的 原因 。 这 种 理解 缺失 带 有 某 种 哲理 性 的 东西 毕竟 ， 我 们 不 知道 人 的 
意识 是 如 何 从 大 脑 的 神经 元 产生 的 。 但 事实 上 ， 不 透明 损害 了 理解 网 络 产生 的 结果 的 能 力 。 

真希 望 网 络 能 告诉 我 们 它 是 如 何以 规则 形式 做 出 决定 的 。 不 幸 的 是 ， 让 它 如 此 有 力 的 神 
经 网 络 结 点 的 非 线性 特性 ， 同 样 也 使 它 不 可 能 给 出 简单 的 规则 。 最 终 ， 也 许 提 取 神 经 网 络 规 
则 的 研究 能 带 来 好 的 清晰 结果 。 但 在 此 之 前 ， 被 训练 的 网 络 本 身 就 是 规则 ， 人 们 需要 用 其 他 
方法 仔细 观察 ， 才 能 了 解 网 络 内 部 发 生 的 事情 。 

一 项 被 称 为 灵敏 度 分 析 (sensitivity analysis) 的 技术 可 用 于 获知 不 透明 的 模型 如 何 工作 。 
灵敏 度 分 析 并 不 提供 清晰 的 规则 ， 但 是 ， 它 的 确 暗 示 了 输入 对 网 络 结果 的 相对 重要 性 。 灵 人 敏 
度 分 析 使 用 测试 集 决 定 网 络 输出 相对 每 个 输入 的 敏感 程度 。 下 面 是 基本 的 步骤 ， 
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1) 对 每 个 输入 找到 平均 值 。 可 以 把 这 个 平均 值 当 作 测 试 集 的 中 心 ; 

2) 当 所 有 的 输入 在 平均 值 附 近 时 ， 测 定 网 络 输出 ; 

3) 当 每 个 输入 被 修改 时 ， 逐 个 测定 网 络 的 输出 ， 确 定 它 的 最 小 值 和 最 大 值 (通常 分 别 
是 -1 和 1)。 

如 果 某 些 输入 使 得 网 络 的 输出 在 这 三 个 数值 〈 最 小 值 、 平 均值 和 最 大 值 ) 上 改变 很 少 ， 
则 网 络 对 这 些 输入 是 不 敏感 的 〈 至 少 当 所 有 的 其 他 输入 处 于 它们 的 平均 值 的 时 候 ); 而 如 果 
输入 对 网 络 输出 有 很 大 的 影响 ， 则 网 络 对 其 是 教 感 的 ， 可 以 用 对 应 于 每 个 输入 的 输出 变化 量 
测定 网 络 的 灵敏 度 。 对 所 有 输入 使 用 这 些 方法 ， 就 能 创造 出 每 个 特征 重要 性 的 相对 度量 。 当 
然 ， 这 个 方法 完全 是 经 验 性 的 ， 并 且 只 独立 地 观察 每 个 变量 。 神 经 网 络 之 所 以 令 人 感 兴趣 ， 
恰恰 是 因为 它们 能 考虑 变量 之 间 的 相互 作用 。 

当然 在 程序 方面 可 以 有 些 变化 ， 可 以 同时 修改 两 个 或 三 个 特征 值 ， 以 观察 某 些 特征 组 合 
是 否 特别 重要 。 从 测试 集中 点 之 外 的 某 个 位 置 开 始 有 时 是 有 用 的 ， 例 如 ， 可 能 重复 分 析 一 些 
特征 的 最 小 值 和 最 大 值 ， 以 便 观察 网 络 对 极端 情况 多 么 敏感 。 如 果 灵 人 敏 度 分 析 对 这 三 种 情况 
产生 明显 不 同 的 结果 ， 那 么 ， 在 网 络 中 利用 特征 组 合 就 有 更 高 的 优先 次 序 〈 即 需要 优先 考虑 
利用 这 些 组 合 )。 

当 使 用 前 馈 、 反 向 传播 网 络 时 ， 灵 人 敏 度 分 析 可 以 充分 利用 在 学 习 阶 段 中 计算 的 误差 结 
果 ， 而 不 是 去 独立 测试 每 个 特征 。 将 验证 集 送 人 网 络 产 生 输 出 ， 然 后 将 输出 与 预期 的 输出 相 
比较 计算 误差 ， 网 络 经 过 单元 再 把 误差 传送 回来 ， 其 目的 不 是 调整 任何 权重 值 ， 而 是 追踪 对 
应 于 每 个 输入 灵敏 度 的 轨迹 。 误 差 其实 就 是 灵敏 度 的 代言 人 ， 利 用 它 可 以 确定 网 络 中 每 个 输 
和 人 会 在 多 大 程度 上 影响 输出 。 在 整个 测试 集 上 ， 累 积 这 些 灵 人 敏 度 就 可 以 确定 哪些 输入 对 输出 
的 影响 比较 大 。 但 根据 我 们 的 经 验 ， 这 种 方式 产生 的 值 对 了 解 网 络 并 不 是 特别 地 有 用 。 

提示 : 神经 网 络 不 产生 容易 让 人 领会 的 、 解 释 它 们 如 何 得 出 给 定 结果 的 规则 ， 但 通 

过 使 用 灵敏 度 分 析 ， 了 解 网 络 输入 的 相对 重要 性 还 是 可 能 的 。 灵 敏 度 测 试 可 以 是 人 

工 操作 的 过 程 ， 在 这 个 过 程 中 ， 可 以 逐一 测试 每 个 特征 相对 于 其 他 特征 的 灵 教 度 ; 

通过 利用 反 向 传播 产生 的 灵敏 度 信 息 ， 这 个 过 程 也 可 能 更 加 自动 化 。 在 许多 情况 

下 ， 理 解 输入 的 相对 重要 性 几乎 等 同 于 有 清晰 的 规则 。 


7.10 自 组 织 映 像 


自 组 织 映 像 (selforganizing map，SOM) 是 用 于 非 定向 数据 挖掘 任务 〈 如 艇 检 测 ) 的 神经 
网 络 变 体 之 一 。 芬 兰 研究 者 Thevo Kohonen 博士 发 明了 自 组 织 映 像 ， 所 以 也 被 称 为 Kohonen 网 
络 。 虽 然 这 些 网 络 原本 是 用 于 图 像 和 声音 的 ， 但 也 能 识别 数据 中 的 簇 。 它 们 是 以 与 前 馈 、 反 向 
传播 网 络 相同 的 基本 单元 为 基础 的 ， 但 是 SOM 在 以 下 两 个 方面 与 它们 完全 不 同 : 一 是 有 不 同 
的 拓扑 结构 ， 此 时 反 向 传播 的 学 习 方 法 不 再 适用 ; 二 是 有 一 个 完全 不 同 的 训练 方法 。 


7.10.1 什么 是 自 组 织 映 像 


自 组 织 映 像 (SOM) 是 一 种 能 够 在 数据 中 识别 未 知 模式 的 神经 网 络 ， 图 7-13 中 给 出 了 
一 个 实例 。 像 我 们 已 经 看 到 的 网 络 一 样 ， 基 本 的 SOM 有 一 个 输入 层 和 一 个 输出 层 : 输入 层 
的 每 个 单元 都 连接 到 一 个 源 ， 这 与 建立 预言 性 模型 的 网 络 一 样 ; 同时 ， 像 其 他 网 络 一 样 ， 
SOM 中 的 每 个 单元 都 有 一 个 独立 的 权重 ， 与 每 个 进 和 人 的 连接 相关 联 (实际 上 ， 这 是 所 有 神 
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经 网 络 的 特性 )， 但 SOM 与 前 馈 、 反 向 传播 网 络 之 间 的 相似 性 也 仅 此 而 已 。 


输出 单元 之 阁 互 相 竞争 网 络 输出 


输出 层 如 柚 格 状 排列 。 每 个 单元 
被 连接 到 所 有 的 输入 单元 ， 但 相 
互 之 间 并 不 相连 


输入 层 与 输入 相连 


图 7-13 自 组 织 映 像 是 一 种 特别 的 神经 网 络 类 型 ， 能 用 来 发 现 艇 


输出 层 是 由 许多 单元 构成 的 ， 而 不 是 少数 几 个 。 输 出 层 中 的 每 个 单元 都 连接 到 输入 层 的 
所 有 单元 。 输 出 层 呈 栅 格 状 排 布 ， 像 一 个 棋盘 格 。 即 使 在 这 个 层 中 的 单元 彼此 并 不 相连 ， 栅 
格 状 的 结构 在 SOM 训练 中 实际 上 扮演 着 重要 角色 ， 我 们 稍 后 会 看 到 。 

SOM 是 如 何 识别 模式 的 呢 ? 设想 在 狂欢 节 上 有 一 个 亭子 ， 你 在 那里 朝 布 满 孔洞 的 墙 上 
投掷 球 。 如 果 球 落 人 其 中 的 一 个 洞 ， 你 可 以 选择 奖品 。 训 练 SOM 就 像 一 个 人 蒙 着 眼 处 于 亭 
子 中 ， 并 且 最 初 墙 上 没有 洞 ， 这 种 情况 与 下 面 描述 的 情况 非常 相像 : 开始 在 大 量 的 数据 中 寻 
找 模式 ， 但 不 知道 该 从 哪里 下 手 。 当 你 每 次 投掷 球 后 ， 墙 上 便 留 下 小 的 凹 痕 ， 最 后 ， 当 足够 
多 的 球 投 在 相同 区 域 附近 时 ， 凹 陷 穿 破 墙 形成 一 个 洞 。 现 在 ， 当 另外 一 个 球 落 在 那个 位 置 
时 ， 便 穿 润 亨 过 ， 你 将 获得 一 个 奖品 一 一 在 狂欢 节 上 ， 它 是 一 个 廉价 的 毛 绒 玩 具 ， 而 在 
SOM 中 ， 是 一 个 可 以 确认 的 簇 。 

图 7-14 显示 了 一 个 简单 的 SOM 是 如 何 运 转 的 。 当 许多 的 训练 集 用 于 训练 网 络 的 时 候 ， 
数值 经 过 网 络 向 前 流 到 输出 层 的 单元 。 输 出 层 的 单元 之 间 彼 此 竞争 ， 有 最 高 值 的 那 一 个 “ 胜 
出 "。 获 得 的 奖赏 是 调整 通 向 获胜 单元 路 径 的 权重 ， 强 化 对 输入 模式 的 响应 。 这 就 像 在 网 络 
中 产生 一 个 小 上 四 痕 。 

对 网 络 的 训练 还 有 另外 一 个 方面 。 不 仅 获胜 单元 的 权重 被 调整 ， 而 且 紧邻 它 的 单元 的 权 
重 也 被 调整 ， 以 强化 它们 对 输入 的 响应 。 这 种 调整 由 邻近 度 参 数 来 控制 ， 这 个 参数 可 以 控制 
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邻居 的 数目 和 调整 量 。 最 初 ， 邻 居 的 数目 相当 大 ， 并 且 调 整 量 也 很 大 。 当 训练 继续 进行 ， 邻 
居 的 数目 和 调整 量 开 始 减 少 。 邻 近 度 参 数 实际 有 以 下 几 个 作用 : 一 是 输出 层 表 现 更 像 相互 联 
系 的 纺织 物 ， 虽 然 单元 之 间 彼 此 并 不 直接 相连 ;与 那些 不 相似 的 复 相 比 ， 相 互 之 间 相 似 的 角 
应 该 靠 得 更 近 ; 更 重要 的 是 ， 邻 近 度 参数 可 以 把 一 组 单元 表示 为 单个 徐 ， 如 果 没 有 邻近 度 参 
数 ， 网 络 一 般 会 找到 与 数据 中 输出 层 单元 数目 一 样 多 的 艇 一 这 就 在 复 检 测 中 引入 了 偏离 。 


“获胜 输 出 单元 及 其 路 径 


| 大 
NS 


图 7-14 一 个 SOM 能 找到 出 色 地 识别 特定 输入 的 输出 单元 


比较 典型 的 情况 是 ，SOM 可 以 识别 出 少 于 输出 单元 数目 的 复 。 当 使 用 网 络 分 配 新 的 记 
录 到 得 中 的 时 候 ， 其 效率 是 很 低 的 ， 这 是 由 于 新 的 输入 经 过 网 络 馈 和 人 到 输出 层 中 从 未 使 用 过 
的 单元 。 为 了 确定 实际 上 使 用 了 哪个 单元 ， 我 们 将 SOM 应 用 到 验证 集 。 验 证 集成 员 被 送 入 
网 络 ， 追 踪 每 种 情况 下 胜出 单元 的 轨迹 ， 那 些 没 有 采用 或 很 少 采 用 的 单元 被 丢弃 。 去 掉 这 些 
单元 可 以 增加 网 络 运行 时 的 表现 ， 因 为 这 可 以 减少 对 于 新 实例 的 运算 次 数 。 

一 旦 最 终 网 络 就 位 ， 即 输出 层 中 只 含有 那些 能 够 识别 特定 篮 的 单元 ， 网 络 就 可 以 应 用 于 
新 例子 。 一 个 未 知 的 例子 输入 到 网 络 中 ， 被 分 配 到 输出 单元 中 有 最 大 权重 的 位。 网 络 已 经 识 
别 出 了 簇 ， 但 是 我 们 不 知道 与 它们 相关 的 任何 情况 。 稍 后 我 们 将 回 到 识别 复 的 问题 上 。 

最 初 的 SOM 使 用 二 维 栅 格 作为 输出 层 ， 它 是 早期 为 识别 由 二 维 像素 值 阵 列 组 成 的 图 像 
特征 而 构造 出 来 的 。 输 出 层 实际 可 以 是 任意 结构 一 一 可 以 是 在 三 维 空间 中 定义 的 邻居 ， 如 六 
角形 的 网 络 或 其 他 形式 的 布局 。 
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7.10.2 实例 : 发 现 簇 


一 家 大 银行 对 增加 正在 推销 的 住宅 抵押 贷款 项 目的 数量 非常 感 兴趣 ， 这 提供 了 一 个 聚 类 
的 实例 。 这 家 银行 决定 ， 要 了 解 目前 的 住宅 抵押 贷款 客户 的 情况 ， 以 确定 最 佳 策略 ， 增 加 市 
场 占 有 率 。 为 启动 这 个 过 程 ， 他 们 收集 了 购买 住宅 抵押 贷款 的 $ 000 个 客户 和 没有 购买 产品 
的 5 000 个 客户 的 人 口 统计 学 数据 。 即 使 持 有 住宅 抵押 贷款 的 客户 比例 少 于 50% ， 在 训练 集 
设置 相等 的 权重 仍 是 一 个 不 错 的 主意 。 

所 收集 的 数据 有 如 下 字段 : 

。 住 宅 评估 值 

。 有 效 的 信用 额度 

。 人 允许 的 信用 额度 

，。 年 龄 

。 婚 姻 状况 

。 孩 子 数 目 

。 家 庭 收入 

这 个 数据 构成 了 一 个 好 的 聚 类 训练 集 。 输 入 值 被 映射 到 -1 和 +1 之 间 ， 然 后 用 于 训练 
SOM。 网 络 在 数据 中 识别 出 了 五 个 复 ， 但 不 提供 有 关 和 化 的 任何 信息 。 这 些 徐 到 底 意 味 着 什 
么 呢 ? 

用 于 比较 神经 网 络 技术 中 运行 特别 好 的 簇 的 常用 技术 是 平均 成 员 技 术 ， 找 到 每 个 复 的 最 
平均 的 成 员 一 一 复 的 中 心 。 这 与 灵敏 度 分 析 的 方法 相 类 似 。 为 达到 这 个 目的 ， 首 先 要 找到 每 
个 簇 中 每 个 特征 的 平均 值 。 由 于 所 有 的 特征 都 是 数字 ， 对 于 神经 网 络 来 说 ， 这 不 成 问题 。 

例如 ， 假 定 得 的 一 半 成 员 是 男性 ， 另 一 半 是 女性 ， 并 且 男 性 映射 到 - 1.0， 女 性 映射 到 
+1.0， 则 该 徐 的 平均 成 员 的 这 个 特征 会 有 0.0 值 。 在 另 一 个 篮 中 ， 可 能 有 9 个 女性 ，1!1 个 
男性 ， 对 于 这 个 秘 ， 平 均 成 员 会 有 0.8 的 值 。 因 为 所 有 的 输入 都 必须 被 映射 到 一 个 数值 范围 
之 内 ， 这 种 取 平 均值 的 方法 在 神经 网 络 上 运行 效果 良好。 

提示 : 自 组 织 映 像 属于 神经 网 络 的 一 类 ， 可 以 用 于 识别 答 ， 但 是 不 能 指出 到 底 什么 

使 得 徐 成 员 之 间 彼 此 相似 。 一 个 可 用 于 比较 签 的 有 力 方法 是 ， 在 每 个 材 中 确定 中 心 

成 员 或 平均 成 员 。 使 用 测试 集 ， 计 算数 据 中 每 个 特征 的 平均 值 ， 然 后 ， 这 些 平均 值 

显示 在 同一 个 图 表 中 ， 可 以 确定 出 繁 的 独 有 特征 。 

接 下 来 ， 这 些 平均 值 可 以 用 图 7-15 所 示 的 平行 坐标 作 图 ， 它 给 出 了 在 金融 业 实 例 中 识 
别 出 的 五 个 秘 中 心 。 在 这 种 情况 下 ， 银 行 注意 到 其 中 一 个 得 特 别 值得 关注 ， 该 簇 由 四 十 岁 左 
右 、 有 和 孩子 的 已 婚 客户 组 成 。 进 一 步 的 调查 显示 ， 这 些 客户 的 孩子 年 龄 都 在 十 八 、 九 岁 ， 与 
其 他 秘 的 成 员 相 比 ， 这 个 得 的 成 员 有 比较 多 的 住宅 抵押 贷款 。 

故事 继续 发 展 ， 银 行 的 销售 部 门 得 出 结论 ， 这 些 人 用 住宅 抵押 贷款 支付 孩子 们 上 大 学 的 
学 费 。 该 部 门 准备 专门 为 这 个 市 场 设计 营销 计划 ， 通 过 销售 住宅 抵押 贷款 的 方法 支付 大 学 的 
教育 费用 。. 而 这 项 活动 的 结果 令 人 失望 ， 营 销 计划 是 不 成 功 的 。 

由 于 营销 计划 的 失败 ， 好 像 答 没有 实现 它们 的 承诺 。 事 实 上 ， 问 题 出 在 其 他 地 方 ， 银 行 最 
初 只 是 使 用 一 般 客户 的 信息 ， 没 有 通盘 考虑 所 服务 的 众多 不 同 渠 道 的 客户 信息 。 银 行 回 到 了 识 
别 客户 的 问题 上 ， 但 是 这 次 包括 了 较 多 的 信息 一 一 来 自 存款 系统 、 信 用 卡 系统 等 的 信息 。 
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这 个 徐 看 似 有 趣 ， 中 年 、 有 孩子 的 高 收入 客户 申请 高 额 贷款 


图 7-15 在 同一 个 图 上 比较 五 个 篮 中 心 。 这 项 简单 的 可 视 化 技术 
(被 称 为 平行 坐标 ) 帮助 识别 有 趣 的 艇 


基本 方法 是 一 致 的， 因此 ， 我 们 将 不 再 详细 讨论 有 关 的 分 析 。 利 用 后 来 附加 的 数据 ， 银 
行 发 现 ， 有 适龄 上 大 学 孩子 的 客户 复 实 际 上 是 存在 的 ， 但 是 这 个 事实 被 名 略 了 。 当 包括 附加 
数据 时 ， 银 行 获得 的 信息 是 ， 该 复 的 客户 除了 有 个 人 账户 外 ， 也 往往 有 企业 账户 。 这 带 来 了 
值得 思考 的 新 间 题 : 当 孩 子 离 家 去 上 大 学 的 时 候 ， 这 些 父母 就 有 机 会 利用 家 中 的 债券 开始 新 
的 商务 活动 。 

利用 这 种 洞察 力 ， 银 行 设计 出 了 专门 针对 这 类 父母 的 营销 计划 ， 主 要 是 关于 在 “ 空 梨 ” 
时 开展 新 商务 的 计划 。 这 个 计划 获得 成 功 ， 而 且 银 行 看 到 了 住宅 抵押 贷款 的 客户 组 表现 民 
好 。 从 这 个 案例 研究 获得 的 经 验 是 ， 尽 管 SOM 是 发 现 拨 的 有 力 工 具 ， 事 实 上 神经 网 络 的 能 
力 最 多 只 能 与 输入 其 中 的 数据 达到 同样 好 的 水 平 。 


7.11 小 结 


神经 网 络 是 用 途 广泛 的 数据 挖掘 工具 。 在 很 多 行业 和 大 量 的 应 用 中 ， 神 经 网 络 一 再 证 明 
了 自己 的 重要 性 。 这 些 来 自 于 复杂 领域 的 结果 ， 例 如 分 析 时 间 序 列 和 发 现 欺诈 行为 ， 不 是 其 
他 技术 容易 做 到 的 。 目 前 最 大 的 神经 网 络 产品 或 许 是 AT&T 为 在 支票 上 读数 字 而 开发 的 系 
统 ， 这 个 神经 网 络 将 数 十 万 计 的 单元 编 入 七 个 层 中 。 

神经 网 络 是 基于 大 脑 如 何 工 作 的 生物 模型 而 创建 。 尽 管 使 用 的 是 早期 的 数字 计算 机 ， 但 
基本 理念 已 被 证 明 是 非常 有 用 的 。 在 生物 学 上 ， 神 经 元 在 输入 达到 一 定 的 阀 值 〈threshold) 
后 被 激发 ， 这 种 模型 也 能 被 移植 到 计算 机 上 。 实 际 上 该 领域 从 20 世纪 80 年 代 才 攻 勃 发 展 起 
来 ， 当 时 统计 学 家 开始 使 用 它们 ， 并 且 更 好 地 了 解 它 们 。 

神经 网 络 由 相互 关联 在 一 起 的 人 工 神经 元 组 成 。 每 个 神经 元 都 模仿 它 的 对 应 生物 体 ， 利 
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用 不 同 的 输入 组 合 产生 输出 。 由 于 数字 神经 元 处 理 的 是 数字 ， 激 活 函数 就 代表 了 神经 元 的 特 
征 。 在 大 多 数 情况 下 ， 该 函数 是 取 其 输入 的 加 权 和 ， 然 后 再 应 用 S 形 函数 处 理 它 。 结 果 是 ， 
一 个 结 点 有 时 以 线性 方式 出 现 ， 有 时 以 非 线性 方式 出 现 一 一 这 是 在 标准 统计 技术 上 的 改进 。 

最 常见 的 神经 网 络 是 用 于 预言 性 建 模 的 前 馈 网 络 ， 但 最 初 的 突破 点 一 反 向 传播 训练 方 
法 一 一 已 经 被 其 他 方法 替换 ， 例 如 “ 巷 梯度 "”。 这些 网 络 既 能 应 用 于 分 类 型 输入 ， 也 能 应 
用 于 连续 型 输入 ， 但 只 有 当 输 入 字段 被 映射 到 -1 到 +1 的 范围 时 ， 神 经 网 络 能 获知 的 才 最 
多 ,这 是 有 助 于 训练 网 络 的 一 个 指导 性 原则 。 当 少量 的 数据 落 在 范围 之 外 ， 而 且 范 围 更 达 
(比如 0 到 1) 时 ， 神 经 网 络 仍 然 可 以 运行 。 

神经 网 络 确实 有 几 个 缺点 。 首 先 ， 当 只 有 少数 几 个 输入 变量 的 时 候 ， 它 们 运转 最 好 ,但 
技术 本 身 无 助 于 选择 使 用 哪些 变量 ， 变 量 选 择 可 以 利用 其 他 技术 〈 如 决策 树 ) 帮助 解决 ; 同 
时 ， 在 训练 网 络 时 ， 不 能 保证 产生 的 权重 组 是 最 佳 的 ， 为 了 增加 结果 的 置信 度 ， 可 以 建立 几 
个 网 络 ， 选 定 其 中 的 最 佳 者 。 

也 许 最 大 的 问题 是 ， 神 经 网 络 不 能 解释 它 正在 做 什么 。 决 策 树 很 常用 ， 因 为 它们 能 提供 
一 系列 规则 ， 但 从 神经 网 络 中 不 可 能 获得 准确 的 规则 组 。 神 经 网 络 只 能 由 它 的 权重 和 非常 复 
杂 的 数学 公式 做 出 解释 ， 不 幸 的 是 ， 这 个 问题 超出 了 人 类 的 理解 能 力 。 

神经 网 络 的 变 体 ， 如 自 组 织 映 像 ， 可 以 把 该 技术 扩展 到 非 定向 聚 类 。 总 体 来 说 ， 神 经 网 
络 是 强 有 力 的 ， 能 够 产生 好 的 模型 ， 不 足 之 处 是 我 们 不 知道 它们 是 如 何 工作 的 。 
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第 8 章 最 近邻 方法 : 基于 存储 的 
推理 和 协同 过 滤 


你 听 到 某 人 人 说话， 立刻 就 会 猜测 她 来 自 澳洲 ， 为 什么 呢 ? 因为 她 的 口音 使 你 回想 起 你 曾 
经 遇见 的 其 他 澳洲 人 。 又 比如 ， 受 一 个 吃饭 比较 讲究 的 朋友 推荐 ， 你 准备 到 一 家 有 可 能 喜欢 
的 新 餐馆 用 餐 。 上 述 这 两 种 情况 都 是 以 经 验 为 基础 进行 判断 的 例子 。 当 面 对 新 形势 时 ， 人 们 
很 自然 地 被 过 去 曾经 历 的 类 似 情形 的 记忆 所 引导 ， 这 就 是 本 章 要 讲 的 数据 挖掘 技术 的 
基础 。 
近邻 技术 正 是 基于 这 种 “相似 性 ”概念 。 基 于 存储 的 推理 (memory-based reasoning， 
MBR) 的 结果 以 过 去 类 似 的 情形 为 基础 一 一 非常 像 基 于 过 去 所 知道 的 澳洲 口音 来 判断 一 个 
新 朋友 是 澳洲 人 这 个 例子 。 协 回 过 滤 会 增加 更 多 的 信息 ， 因 为 它 不 仅 使 用 邻居 之 中 的 相似 
性 ,还 同时 考虑 他 们 的 不 同 喜好 。 和 餐馆 推荐 就 是 一 个 协同 过 滤 (collaborative filtering) 的 
实例 。 

所 有 这 些 技术 的 中 心 是 “相似 性 ”这 个 概念 。 到 底 是 什么 造成 了 过 去 发 生 的 事件 与 一 个 
新 的 事件 相似 ? 在 从 过 去 寻找 类 似 的 记录 的 同时 ， 还 要 想 办 法 把 邻居 的 信息 结合 起 来 。 这 就 
是 最 近邻 方法 的 两 个 主要 概念 。 

本 章 将 首先 对 MBR 进行 简单 介绍 ， 解 释 它 是 如 何 工作 的 。 对 最 近邻 技术 而 言 ， 距 离 和 
相似 性 的 衡量 是 很 重要 的 ， 所 以 后 面 有 一 节 专 门 讲述 距离 度量 ， 包 括 不 同 数据 类 型 距离 的 意 
义 《〈 比 如 纯 文本 中 距离 就 没有 明显 的 几何 学 解释 )。 

MBR 的 思维 方法 可 以 透 过 一 个 案例 表现 ， 这 个 案例 讲述 了 MBR 如 何 把 关键 词 穿插 到 
新 闻 报 导 中 去 。 本 章 最 后 将 讲 到 协同 过 滤 ， 这 是 一 个 做 出 推荐 时 常用 的 方法 ， 尤 其 在 网 上 更 
常用 。 协 同 过 滤 也 是 以 最 近邻 方法 为 基础 的 ， 但 是 有 微小 
影 分 成 不 同 邻 居 组 ， 而 是 按照 推荐 餐馆 或 电影 的 人 来 分 组 。 


8.1 基于 存储 的 推理 


人 们 从 经 验 推理 的 能 力 依赖 于 从 过 去 找到 合适 样本 的 能 力 。 医 生 诊 断 疾病 ， 理 赔 分 析 员 
标识 出 欺诈 保险 索赔 ， 采 蘑菇 的 人 发 现 羊 肚 菌 ， 这 些 活动 都 遵循 一 个 相似 的 过 程 ， 即 每 个 人 
首先 从 经 验 中 找 出 类 似 的 案例 ， 然 后 把 他 们 从 这 些 案例 中 得 到 的 知识 应 用 于 需要 解决 的 问 
题 。 这 就 是 基于 存储 的 推理 之 精髓 所 在 : 从 一 个 已 知 记 录 数 据 库 中 搜寻 与 一 条 新 的 记录 相 类 
似 的 预 分 类 记录 ， 然 后 把 这 些 邻 居 记 录 应 用 于 分 类 和 估计 。 

MBR 的 应 用 横 跨 许多 领域 ; 

欺诈 探测 : 新 的 壤 诈 案例 可 能 与 已 知 的 案例 类 似 ，MBR 识别 出 它们 并 加 以 标记 ， 以 便 
做 进一步 的 调查 。 

客户 响应 预测 : 下 一 个 有 可 能 响应 优惠 服务 的 客户 ， 或 许 与 以 前 已 经 响应 的 客户 类 似 ， 
MBR 能 容易 地 识别 出 下 一 个 可 能 的 客户 。 
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医学 治疗 : 对 一 位 现 有 病人 最 有 效 的 治疗 或 许 是 对 其 他 类 似 病 人 达到 最 佳 效果 的 治疗 方 
法 ，MBR 能 发 现 达 到 最 佳 效果 的 治疗 方法 。 

把 响应 分 类 : 像 美 国人 口 普 查 表 上 的 那些 职业 和 行业 ， 或 者 客户 的 抱怨 这 样 的 文本 响 
， 需 要 被 归 人 一 系列 固定 的 分 类 代码 ，MBR 能 处 理 这 些 自由 文本 并 分 配 代码 。 

MBR 的 强 有 力 的 特点 之 一 是 它 “ 原 样 ” 使 用 数据 的 能 力 。 与 其 他 的 数据 挖掘 技术 不 同 ， 
它 不 关注 记录 的 格式 ， 只 关注 两 种 运算 : 一 是 距离 函数 ， 用 于 计算 在 任意 两 个 记录 之 间 的 距 
离 ; 二 是 组 合 函 数 ， 用 于 结合 几 个 邻居 的 结果 形成 一 个 答案 。 这 些 函 数 是 针对 许 许多 多 记录 
而 定义 的 ， 包 括 复杂 的 或 不 常用 的 数据 格式 记录 ， 如 : 地 理 位 置 、 图 像 和 自由 文本 等 通常 难 
以 用 其 他 的 分 析 技 术 处 理 的 数据 。 本 章 稍 后 将 讲 到 的 一 个 案例 展示 了 MBR 在 新 闻 报 导 分 类 
方面 的 成 功 应 用 一 一 一 个 充分 利用 新 闻 报 导 的 自由 文本 分 配 代码 的 实例 。 

MBR 的 另 一 个 强 有 力 的 特点 是 它 的 适应 能 力 。 只 需要 将 新 的 数据 纳 和 人 历史 数据 库 ， 
MBR 就 能 利用 它 从 旧 的 类 或 定义 中 得 到 新 的 类 和 定义 。MBR 不 需要 一 段 很 长 的 时 间 来 训练 
或 更 改 数据 为 某 个 正确 的 格式 ， 也 能 照样 给 出 好 的 结果 。 

这 些 优势 是 有 代价 的 。MBR 往往 是 数据 贪 禁 者 ， 为 了 找到 邻居 ， 需 要 使 用 大 量 的 历史 
数据 ， 为 分 类 新 记录 ， 需 要 处 理 所 有 的 历史 记录 以 找到 最 相似 的 邻居 一 一 与 已 经 训练 过 的 神 
经 网 络 或 已 建立 的 决策 树 等 方法 相 比 ， 是 一 个 更 耗 时 的 过 程 。 另 一 个 必须 面 对 的 问题 就 是 发 
现 好 的 距离 函数 和 组 合 函数 ， 这 通常 需要 一 些 尝 试 ， 有 时 可 能 出 现 错误 ， 当 然 还 需要 有 某 种 
直觉 等 。 


实例 : 使 用 MBR 估计 纽约 州 Tuxedo 镇 的 房租 


这 个 实例 的 目的 在 于 说 明 MBR 是 如 何 工 作 的 ， 通 过 结合 几 个 相似 城镇 〈 目 标 城镇 的 最 
近邻 ) 的 租金 数据 ， 估 计 目 标 城 镇 中 一 套 公 寓 的 租赁 费用 。 

MBR 过 程 首 先 要 找 出 最 近邻 ， 然 后 把 它们 的 信息 结合 起 来 。 图 8-1 说 明了 这 些 步 又 中 
的 第 一 步 。 任 务 目 标 是 通过 察看 纽约 州 Orange 县 Tuxedo 镇 的 最 近邻 情况 ， 来 预测 它 的 房 
租 。 所 谓 的 最 近邻 不 是 指 位 于 纽约 州 东 部 的 Hudson 和 Delaware 河流 那些 地 理 上 的 邻居 ， 而 
是 基于 描述 变量 的 邻居 一 一 在 这 个 案例 中 ， 指 的 是 人 口 和 中 值 住 宅 价格 。 散 点 图 给 出 的 是 按 
这 两 个 变量 画 出 的 纽约 城镇 情况 ， 从 图 8-1 可 以 看 出 ， 以 这 样 的 方式 来 看 ，Brooklyn 和 
Queens 是 最 近 的 邻居 ， 两 者 离 曼 哈 顿 都 很 远 。 虽 然 曼哈顿 的 人 口 密度 几乎 与 Brooklyn 和 
Queens 一 样 ， 但 由 于 住宅 价值 ， 它 被 单独 列 为 一 个 类 。 

提示 : 和 领 居 的 概念 可 以 从 各 个 角度 来 理解 。 角 度 的 选择 决定 哪些 记录 是 彼此 接近 

的 。 对 于 某 些 目的 而 言 ， 地 理 位 置 的 接近 可 能 很 重要 ; 对 于 其 他 目的 来 说 ， 住 宅 价 

值 或 平均 住宅 面积 大 小 或 人 口 密 度 (density) 可 能 是 更 重要 的 。 角 度 的 选择 和 距离 

度量 的 选择 对 任何 最 近邻 方法 都 是 非常 重要 的 。 

MBR 的 第 一 个 阶段 是 在 图 8-1 中 所 示 的 散 点 图 上 寻找 最 近 的 邻居 ， 然 后 再 找到 下 一 个 
最 近 的 邻居 ， 如 此 反复 直到 找到 所 需要 的 数目 为 止 。 在 这 个 例子 中 ， 邻 居 的 数目 是 2， 最 近 
的 是 Shelter 岛 (是 一 个 真正 的 岛 )， 其 出 口 是 Long Island 的 North Fork 和 North Salem 
(Northern Westchester 的 一 个 城镇 ， 靠 近 Connecticut 州 边界 ) 。 这 些 城镇 处 于 人 口 排序 列表 
的 中 部 ， 如 果 按 照 住 宅 价格 排序 列表 ， 它 们 位 于 列表 顶端 附近 。 虽 然 空间 距离 相隔 很 多 英 
里 ， 而 且 位 于 两 个 方向 ， 但 Shelter 岛 和 North Salem 与 Tuxedo 镇 的 情况 是 很 类 似 的 。 
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邻居 一 经 确定 ， 下 一 步 是 把 来 自 邻 居 的 信息 组 合 起 来 ， 推 出 关于 目标 的 某 些 事 。 对 于 这 个 
实例 ,我们 的 目标 是 估计 在 Thxedo 镇 租用 住宅 的 费用 。 可 能 有 不 止 一 种 合理 的 方法 组 合 邻居 
的 数据 。 人 口 普查 可 以 以 两 种 形式 提供 关于 房租 的 资讯 。 表 8-1 显示 了 这 两 个 邻居 城镇 中 选 出 
的 2000 个 人 口 普查 报告 关于 租金 的 报告 结果 。 对 于 每 个 城镇 ， 给 出 了 几 个 不 同 价位 段 的 租户 
数目 ， 同 时 给 出 的 还 有 每 个 城镇 的 中 值 房租 。 关 键 问题 是 ， 找 出 一 个 方法 能 够 使 用 这 个 数据 来 
最 好 地 表达 邻居 房租 的 特征 ， 然 后 组 合 邻 居 信息 给 出 一 个 表示 Tuxedo 镇 的 房租 特征 的 估计 。 


表 8-1 一 些 邻 居 
中 什 房租 房租 房租 房租 房租 无 
城 镇 人 口 房租 < $S00 和 750 $$1500 $1000 > $1500 房租 
(%) (%) (%) (%) (%) (%) 
Shelter 岛 2228 下 804 3.1 34.6 31.4 10.7 3.1 17 
Noerth Salem 5173 $1150 3 10.2 21.6 30.9 24.2 10.2 


即使 中 值 房租 水 平 是 类 似 的 ，Tuxedo 最 近 的 邻居 North Salem 镇 和 Shelter 岛 的 房 
租 分 布 情况 也 是 相当 不 同 的 。 在 Shelter 岛 ， 一 个 普通 的 住宅 ( 占 34.6% 的 比例 )， 租 金 在 
S00 到 7S0 美元 之 间 。 在 North Salem 镇 ， 占 30.9% 的 最 大 多 数 住 宅 ， 租 金 在 1000 到 1500 
美元 之 间 。 此 外 ,在 Shelter 岛 只 有 3.1% 的 住宅 租金 超过 1500 美元 ， 而 在 North Salem 镇 有 
24.2% 的 住宅 租金 超过 这 个 数目 。 另 一 方面 ，Shelter 岛 的 中 值 房租 为 804 美元 ， 高 于 750 美元 
的 最 普通 房租 水 平 ， 而 在 North Salem 镇 ， 中 值 房租 为 1150 美元 ， 低 于 该 镇 的 最 普通 房租 水 
平 。 如 果 能 够 知道 平均 房租 ， 那 它 也 会 是 一 个 表征 不 同城 镇 房租 的 很 好 的 候选 参数 。 

一 个 可 能 的 组 合 函 数 是 取 这 两 个 邻居 的 最 普通 租金 的 平均 数 。 既 然 给 出 的 只 是 一 个 范 
围 ， 我 们 就 取 中 点 。 对 于 Shelter 岛 来 说 ， 最 普通 的 租金 范围 中 点 是 1 000 美元 ， 对 于 North 
Salem 镇 ， 它 是 1 250 美元 。 取 这 两 个 值 的 平均 数 就 给 出 了 Tuxedo 镇 房租 的 一 个 估计 值 
1 125 美 元 。 另 外 一 个 可 用 的 组 合 函 数 是 取 两 个 中 值 房租 的 中 间 点 ， 这 个 方法 给 出 的 Tuxedo 
镇 中 值 房租 的 一 个 估计 值 为 977 美元 。 

事实 上 ，Tuxedo 镇 的 租金 大 多 数 是 在 1 000 到 1 500 美元 之 间 ， 中 间 点 在 1 2S0 美元 ， 
而 Tuxedo 镇 的 中 值 租 金 是 907 美元 。 所 以 ， 取 中 值 房租 的 平均 值 就 稍微 高 估 了 一 点 Tuxedo 
镇 的 中 值 房租 ， 而 取 最 普通 房租 的 平均 值 又 稍微 低估 了 Tuxedo 镇 的 最 普通 租金 。 说 哪 一 个 
更 好 是 困难 的 ， 实 际 上 没有 一 个 明显 的 “最 佳 ” 组 合 函 数 。 


8.2 MBR 面临 的 挑战 


在 上 面 给 出 的 简单 实例 中 ， 训 练 集 包 含 纽约 的 所 有 城镇 ， 每 个 城镇 都 用 一 系列 数值 型 字段 来 
描述 ， 比 如 和 人口、 住宅 中 值 价格 和 中 值 房租 ， 等 等 。 葡 离 可 以 由 散 点 图 中 的 不 同方 位 来 确定 ， 散 
点 图 中 的 数 轴 坐 标 缩减 到 合适 的 范围 ， 邻 居 的 数目 全 都 定 为 2。 组 合 函 数 是 一 个 简单 的 平均 。 

所 有 这 些 选 项 看 上 去 是 合理 的 。 使 用 MBR 通常 包括 以 下 几 个 选项 : 

1) 选择 一 个 适当 的 训练 记录 集 。 

2) 选择 最 有 效 的 方法 表达 训练 记录 。 

3) 选择 距离 函数 、 组 合 函数 和 邻居 的 数目 。 

下 面 我 们 依次 来 看 每 个 选项 。 
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8.2.1 选择 一 组 平衡 的 历史 记录 


训练 集 是 一 组 历史 记录 ， 需 要 涵盖 人 口 状 况 ， 以 便 一 个 未 知 记录 的 最 近邻 居 可 以 用 于 预 
言 性 目的 。 一 个 随机 样本 不 可 能 提供 对 所 有 数值 的 充分 覆盖 : 一 些 类 比 其 他 类 更 常 出 现 ， 而 
且 更 常 出 现 的 类 往往 会 占 随 机 样本 的 大 部 分 。 

例如 ， 坎 诈 交 易 比 非 坎 诈 交 易 要 少许 多 ， 心 脏 病 比 肝 瘤 发 生 率 更 高 ， 关 于 计算 机 工业 的 
新 闻 报 导 比 塑料 工业 更 多 ， 等 等 。 为 了 达成 平衡 ， 如 果 可 能 的 话 ， 训 练 集 包 含 的 记录 应 该 满 
足 这 样 的 要 求 : 每 个 类 有 大 约 相等 数目 的 记录 。 

提示 : 当 为 MBR 选择 训练 集 的 时 候 ， 要 保证 每 个 类 大 约 有 相同 数目 的 记录 支持 

它 。 依 通常 的 经 验 判 断 ， 要 保证 适度 支持 ， 每 个 类 有 数 十 个 记录 是 一 个 最 低 要 求 ， 

而 数 百 或 数 以 千 计 的 样本 都 是 很 平常 的 。 

8.2.2 表示 训练 数据 


MBR 在 预测 方面 的 表现 依赖 于 训练 集 的 表示 。 图 8-2 所 示 的 散 点 图 方法 对 于 两 、 三 个 
变量 和 小 的 记录 数目 是 有 效 的 ， 但 是 不 能 很 好 地 扩展 。 找 到 最 近邻 居 的 最 简单 方法 是 ， 找 出 
未 知事 件 与 训练 集中 每 一 个 记录 的 距离 ， 并 选 出 距离 最 小 的 训练 记录 。 当 记录 数目 增加 的 时 
候 ， 为 一 条 新 记录 寻找 邻居 需要 的 时 间 会 增加 地 很 快 。 
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图 8-2 ”大概 MBR 的 最 简洁 的 训练 集 是 恰好 整齐 地 分 为 两 个 不 相交 的 集合 
在 记录 被 储存 在 一 个 关系 型 数据 库 时 尤其 如 此 。 对 于 本 案例 ， 需 要 用 到 的 查询 类 似 如 下 ; 


SELECT distance( )，rec. category 


FROM historical _ records rec 
ORDER BY 1 ASCENDING; 


记号 distance() 中 的 值 可 填写 为 一 个 特定 距离 函数 。 在 本 案例 中 ， 要 找到 少数 几 个 最 近 的 
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邻居 ， 需 要 给 所 有 的 历史 记录 排序 。 这 需要 全 表 扫 描 ， 再 加 上 排序 一 一 两 个 相当 费劲 的 运算 。 
我 们 可 以 通过 人 遍历 表格 ， 保 存 最 近邻 居 的 另 一 个 表 ， 视 情况 插 和 人 和 删除 记录 ， 这 样 就 可 以 不 用 
排序 了 。 不 幸 的 是 ， 如 果 不 使 用 一 种 程序 语言 ， 这 个 方法 在 SQL 中 是 不 容易 完成 的 。 
关系 数据 库 目前 的 表现 相当 好 。 为 MBR 数据 评分 面临 的 挑战 是 ， 每 一 个 待 评分 的 事件 
都 需要 与 数据 库 中 的 每 一 个 事件 进行 对 比 ， 即 使 有 数 以 百 万 计 的 历史 记录 ， 给 单一 的 新 记录 
评分 并 不 需要 花费 很 多 时 间 ; 然而 ， 同 时 给 许多 新 记录 评分 可 能 效果 会 比较 差 。 
提示 MBR 效率 的 另外 一 个 方法 是 减少 训练 集中 的 记录 数目 。 图 8-2 显示 了 分 类 数据 的 
一 个 散 点 图 。 在 这 个 图 中 的 两 个 区 域 之 间 ， 有 一 条 明确 的 分 界线 。 在 线 上 面 的 所 有 点 是 萎 形 
点 ， 而 所 有 线 下 面 的 点 是 圆 形 点 。 虽 然 这 个 图 中 有 40 个 点 ， 但 是 大 部 分 是 多 余 的 。 也 就 是 
说 ， 它 们 并 不 是 满足 这 个 分 类 目的 所 必需 的 点 。 
图 8-3 表明 ， 只 需要 8 个 点 就 可 以 得 到 相同 的 结果 。 由 于 训练 集 的 大 小 对 MBR 的 表现 
有 如 此 大 的 影响 ， 减 少 它 的 大 小 会 极 大 地 增强 MBR 的 性 能 。 
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图 8-3 使 用 更 少 的 点 集 给 出 与 图 8-2 中 MBR 相同 的 结果 


如 何 才能 找到 这 个 缩小 的 记录 集合 ? 最 实用 的 方法 是 找寻 包含 属于 不 同 种 类 的 记录 的 
簇 ， 然 后 把 这 些 簇 的 中 心 部 分 作为 一 个 缩减 的 集合 使 用 。 当 不 同 的 类 是 分 散 的 时 候 ， 效 果 很 
好 ; 然而 ， 当 有 一 些 重 玲 ， 而 且 类 定义 不 太 明确 的 时 候 ， 使 用 艇 减少 训练 集 的 大 小 会 导致 
MBR 给 出 很 差 的 结果 。 发 现 最 佳 “ 支 持 记 录 ” 的 集合 已 经 成 为 近期 研究 的 一 个 热点 。 找 到 
一 个 最 佳 集合 的 时 候 ， 历 史记 录 有 时 能 被 缩减 到 可 以 填 人 一 个 电子 表格 那样 大 小 ， 这 样 ， 在 
计算 能 力 比较 差 的 机 器 上 把 MBR 应 用 到 新 的 记录 时 会 更 有 效 。 


8.2.3 确定 距离 函数 、 组 合 函数 和 邻居 的 数目 


上 离 函数 、 组 合 函 数 和 邻居 的 数目 是 使 用 MBR 时 要 用 到 的 几 个 关键 部 件 。 根 据 判 别 标 
准 的 不 同 ， 同 一 组 历史 记录 对 于 预言 性 目的 可 能 很 有 用 ， 也 可 能 一 点 用 处 都 没有 。 幸 运 的 
是 ， 简 单 的 距离 函数 和 组 合 函数 通 常 可 以 相当 好 地 满足 工作 需要 。 在 详细 讨论 这 些 问 题 之 
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前 ， 先 来 看 一 个 详细 的 案例 介绍 。 
8.3 案例 研究 : 分 类 新 闻 报 导 


这 一 案例 研究 使 用 MBR 为 不 同 的 新 闻 报 导 分 配 类 别 代 码 (classification code)， 是 以 本 
书 的 一 位 作者 指导 的 工作 为 基础 的 。 这 个 案例 结果 显示 : MBR 也 能 与 人 一 样 在 解决 涉及 数 
百 个 类 和 难以 使 用 的 数据 类 型 (如 自由 文本 ) 的 问题 上 工作 良好 S 。 


8.3.1 什么 是 代码 


类 别 代 码 是 用 来 描述 新 闻 报 导 内 容 的 关键 词 。 这 些 代码 由 新 闻 检 索 服 务 (news retrieval 
service) 添加 到 报导 中 ， 可 以 帮助 使 用 者 寻找 感 兴趣 的 报导 。 它 们 帮助 把 关于 某 些 特别 事件 
的 报导 自动 发 送 给 特别 客户 ， 而 且 帮 助 实现 个 性 化 的 描绘 。 例 如 .汽车 工业 分 析 师 〈 或 其 他 
任何 对 该 主题 感 兴趣 的 人 ) 可 以 通过 找寻 含有 “汽车 工业 ”代码 的 文件 来 简化 搜索 。 因 为 经 
验 丰 富 的 专家 (也 称 之 为 编辑 ) 建立 了 这 种 代码 ， 人 们 就 可 以 检索 到 正确 的 报导 。 传 统 上 这 
些 代码 是 由 编辑 或 专家 系统 已 经 分 配 好 的 。 本 案例 探索 了 MBR 在 这 一 领域 的 应 用 。 

用 于 这 一 研究 的 代码 分 为 六 个 种 类 : 

。 国 家 机 关 

。 工 业界 

。 市 场 领域 

“产品 

。 区 域 

。 科 目 

这 些 数 据 包 含 了 361 个 独立 代码 ， 分 布 在 表 8-2 所 示 的 训练 集中 。 

表 8-2 ”用 于 分 类 新 闻 报 导 的 六 种 类 型 的 代码 
种 类 代码 数目 文件 数目 出 现 次 数 

政府 (G]) 28 3 926 4 200 

工业 界 (I]) 112 38 308 57 430 

市 场 领域 (MA) 9 38 562 42 058 

产品 (P/) 21 2 242 2 523 

区 域 (R7) 121 47 083 116 358 

科目 (NA) 70 41 902 52 751 


对 不 同 报导 所 赋予 代码 的 数目 和 类 型 是 各 不 相同 的 。 几 乎 所 有 报导 都 有 区 域 和 科目 代 
码 一 一 平均 来 说， 几乎 每 个 报导 包含 三 个 区 域 代码 。 另 一 个 极端 情况 是 ， 只 有 极 少数 报导 包 
含 了 国家 机 关 和 产品 代码 ， 而 且 这 类 报导 很 少 有 一 个 以 上 的 这 类 代码 。 


8.3.2 应 用 MBR 
这 一 部 分 内 容 将 解释 MBR 如 何 为 一 个 新 闻 服 务 社 轻松 地 分 配 新 闻 报 导 代 码 。 包 括 的 几 


驴 本 案例 是 本 书 的 一 位 作者 指导 的 一 个 调查 概要 。 完 整 的 详细 内 容 见 文章 “利用 基于 存储 的 推理 分 类 新 闻 报 导 ”， 
作者 David Waltz、Bri Masand 和 Gordon Linoff，SIGIR 会 议论 文集 ，1992，ACM 出 版 公司 出 版 。 
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个 重要 步骤 是 : 

1) 选择 训练 集 。 

2) 决定 距离 函数 。 

3) 选择 最 近邻 居 的 数目 。 

4) 决定 组 合 阴 数 。 

下 面 的 几 个 小 节 将 依次 讨论 上 述 步 又 。 

1. 选择 训练 集 

由 新 闻 检 索 服 务 机 构 为 这 一 目的 提供 的 训练 集 包 含 49 652 个 新 闻 报 导 ， 这 些 报导 来 自 
大 约 三 个 月 的 新 闻 和 几乎 100 个 不 同 的 并 道 。 平 均 每 个 报导 包含 2 700 个 单词 ， 有 8 个 指定 
的 代码 。 训 练 集 并 不 是 特别 建立 的 ， 因 此 训练 集中 代码 出 现 的 频率 差别 很 大 ， 基 本 上 可 以 重 
现 新 闻 报 导 中 代码 的 总 体 频率 。 虽 然 这 个 训练 集 产 生 了 很 好 结果 ， 但 是 建立 一 个 更 好 的 训练 
集 ， 使 其 包含 更 多 较 不 常 出 现 的 代码 的 样本 ， 或 许 MBR 的 表现 会 更 好 。 

2. 选择 距离 函数 

下 一 步 是 选择 臣 离 图 数 。 在 本 案例 中 ， 已 经 存在 一 个 臣 离 函数 ， 以 测量 两 个 文档 中 所 包 
含 单词 的 相似 性 的 相关 性 反馈 (relevance feedback) 概念 为 基础 。 相关 性 反馈 概念 在 下 面 的 
“使 用 相关 性 反馈 创建 距离 函数 ”部 分 有 更 详细 的 描述 ， 它 最 初 是 用 于 返回 一 个 给 定 文 档 的 
相似 文档 ， 是 作为 细 化 搜索 的 一 种 手段 。 最 类 似 的 文档 即 是 MBR 所 使 用 的 邻居 。 

3. 选择 组 合 函 数 

下 一 个 重要 问题 是 组 合 函数 。 给 新 闻 报 导 分 配 类 别 代码 与 绝 大 多 数 分 类 问题 有 一 点 不 
同 。 绝 大 多 数 分 类 问题 是 寻找 单一 的 最 佳 解决 方案 。 然 而 ， 即 使 在 种 类 相同 的 情况 下 ， 新 闻 
报导 也 可 以 有 多 种 代码 。MBR 适合 解决 这 个 问题 的 能 力 更 突显 了 它 的 灵活 性 。 

使 用 相关 性 反馈 创建 距离 函数 

相关 性 反馈 是 允许 使 用 者 基于 文本 数据 库 改 进 搜索 的 强 有 力 手 段 ， 这 种 改进 是 通过 要 求 
数据 库 返 回 类 仪 文档 实现 的 。 网 络 中 心 和 权威 〈(hub and authority) 是 另外 一 个 在 超 链 接 的 
网 页 上 改良 搜寻 结果 的 方法 ， 将 在 第 10 章 中 做 详细 介绍 。 在 相关 性 反馈 过 程 中 ， 文 本 数据 
库 中 所 有 的 文件 都 被 评分 ， 然 后 返回 那些 最 相似 的 文档 ， 同 时 给 出 相似 性 的 程度 大 小 ， 即 相 
关 性 反馈 得 分 ， 它 可 以 作为 MBR 距离 测量 的 基础 。 

在 本 案例 中 ， 相 关 性 反馈 得 分 的 计算 如 下 ， . 

1) 像 “ 它 “和 ”及 “的 ”这 样 的 常用 但 不 具有 明确 含义 的 词 都 被 从 训练 集 的 所 有 报 
导 文 本 中 去 掉 。 这 一 类 中 总 共有 368 个 字 被 识别 而 去 掉 。 

2) 另外 一 些 是 最 常用 的 词语 ， 对 应 于 数据 库 中 20% 的 词组 ， 也 被 从 文本 中 去 掉 。 因 为 
这 些 词 组 太平 常 了 ， 极 少 能 提供 区 别 两 个 文档 的 有 用 信息 。 

3) 剩余 的 词组 被 收集 进 一 个 可 搜寻 术语 的 字典 。 每 个 词语 被 分 配 一 个 权重 ， 它 反比 于 
在 数据 库 中 的 出 现 频率 。 这 个 特定 的 权重 是 由 该 术语 在 训练 集中 的 出 现 频率 取 以 2 为 底 的 负 
对 数 得 到 的 。 

4) 以 大 写字 母 打 头 的 词组 对 (如 “United States” 和 “New Mexico”) 被 自动 地 识别 ， 
包含 在 可 搜寻 术语 的 字典 中 。 

5) 为 了 计算 两 个 报导 的 相关 性 反馈 得 分 ， 将 两 个 报导 中 可 搜寻 术语 的 权重 相 加 。 当 可 
搜寻 术语 在 两 个 报导 中 表现 得 极其 相近 的 时 候 ， 本 案例 的 算法 就 给 出 一 个 附加 分 。 


rescueswwraaisacisaaisaeaassesiasaisisiaiisaaesiosnesaaeaiacisasicaimsaassseaeaiaiiaaasaaiiaoeoaibiiotaaataaiiosiiiiiiiiietiaatieaiaiiiiiiipiRsliiiaaiiiaiaiiiiNiiaiaiiighiinloiNil 肖 全 半 和 盾 人 和 和 和 和 半 半 和 和 
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相关 性 反馈 得 分 是 改编 一 个 已 知 函 数 用 作 距 离 函 数 的 实例 。 然 而 ， 得 分 本 身 并 不 完全 符 
合 距 离 函 数 的 定义 。 特 别 是 ， 得 分 为 0 表明 两 个 报导 没有 共同 的 词组 ， 而 不 是 暗示 报导 是 恒 
等 的 。 下 列 变换 把 相关 性 反馈 得 分 转变 为 适 于 测量 新 闻 报 导 之 间 “ 距 离 ” 的 一 个 函数 : 
dasitaio (A，B) =1-score (A，B) /score (A，A) 
这 是 一 个 用 于 发 现 最 近邻 居 的 函数 。 由 于 d (A，B) 与 d (B，A) 不 同 ， 实 际 上 这 也 不 
是 一 个 真实 的 距离 函数 ， 但 是 使 用 它 来 工作 已 经 可 以 得 到 足够 好 的 结果 。 
组 合 函 数 采用 了 加 权 和 技术 。 由 于 最 大 的 距离 是 1， 权重 只 是 1 减 去 距离 ， 因 此 臣 离 小 
的 邻居 权重 会 大 ， 而 虐 离 大 的 邻居 权重 就 小 。 举 例 来 说 ， 假 设 某 个 报导 的 邻居 有 表 8-3 中 所 


示 的 区 域 代 码 和 权重 。 
表 8-3 ”未 分 类 报导 中 的 邻居 分 类 
邻居 距 离 权 重 代 码 
1 0.076 0.924 REE，RACA，RACO 
2 0.346 0.654 REE，RJA，R/CA 
3 0.369 0.631 R/FE，RJA，R7MI 
4 0.393 0.607 REFE，RJA，R/ACA 


一 个 代码 的 总 得 分 是 包含 该 代码 的 邻居 的 权重 总 和 ， 得 分 低 于 某 一 个 盖 值 的 代码 将 被 除 
去 。 例 如 ， 代 码 REE (是 远东 区 域 的 代码 ) 的 得 分 是 邻居 1，2，3 和 4 的 权重 之 和 ， 因 为 
它们 全 部 都 包含 REE， 这 样 产 生 一 个 2.816 的 得 分 。 表 8-4 显示 了 被 至 少 四 个 邻居 之 一 包 
含 的 5 个 区 域 代 码 的 得 分 结果 。 对 于 这 些 例子 ，1.0 阐 值 只 留 下 了 三 个 代码 : RMCA、RAEFE 
和 R 和 JA。 特 别 选取 的 阅 值 是 基于 不 同 数值 进行 的 实验 ， 对 理解 MBR 并 不 重要 。 


表 8-4 未 分 类 报导 中 的 代码 得 分 


代 码 1 2 3 4 得 分 
RACA 0.924 0 0 0.607 1.531 
ROOD 0.924 0 0 0 0.924 
RAFE 0.924 0.654 0.631 0.607 2.816 
RJA 0 0.654 0.631 0.607 1.892 
RZMI 0 0.654 0 0 0.624 
4. 选择 邻居 的 数目 


本 案例 中 ， 最 近邻 居 的 数目 只 在 1 和 11 之 间 改 变 。 使 用 较 多 的 邻居 可 以 得 出 最 佳 结果 。 
然而 ， 本 案例 不 同 于 很 多 MBR 应 用 实例 的 地 方 是 ， 它 给 每 个 报导 分 配 多 个 类 。 比 较 典 型 的 问 
题 通常 是 只 分 配 单个 类 或 者 代码 ， 而 且 较 少 的 邻居 通常 就 可 以 产生 足够 好 的 结果 。 


8.3.3 结果 


为 了 测量 MBR 对 分 配 代 码 的 有 效 性 ， 新 闻 服 务 社 派 一 个 编辑 小 组 复审 对 所 有 200 个 报 
导 的 代码 分 配 ， 其 中 包括 通过 编辑 和 MBR 方法 分 配 的 。 只 有 那些 被 绝 大 多 数 的 编辑 小 组 成 
员 同 意 的 代码 被 标注 为 “正确 "。 

把 那些 “正确 ”代码 与 原来 人 类 编辑 指定 的 代码 进行 比较 是 很 有 意义 的 。 通 过 人 工分 配 
到 报导 的 代码 88% 是 正确 的 。 然 而 ， 人 类 编辑 是 会 犯错 的 ; 原来 由 人 类 编辑 分 配 的 代码 总 
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计 有 17% 是 不 正确 的 ， 如 图 8-4 所 示 。 
由 专家 组 分 配 的 代码 


由 MBR 分 配 的 代码 
图 8-4 由 人 类 编辑 和 MBR 给 新 闻 报 导 分 配 代码 的 结果 比较 


MBR 也 没有 做 好 。 对 于 MBR， 相 应 的 百分率 是 80% 和 28% 。 即 MBR 分 配 的 代码 中 有 
80% 是 正确 的 ， 但 是 ， 在 分 配 的 所 有 代码 中 ， 有 28% 的 代码 不 正确 。 

最 初 的 代码 分 配 是 由 各 种 水 平 的 编辑 共同 完成 的 ， 其 中 既 包 括 新 手 ， 也 包括 了 中 等 熟练 
程度 及 有 经 验 的 编辑 。MBR 系统 的 实际 表现 比 新 手 好 一 些 ， 与 中 等 程度 编辑 的 工作 相当 。 
MBR 也 在 使 用 同样 的 由 各 种 水 平 混杂 的 编辑 分 类 出 的 报导 作为 训练 集 ， 因 此 ， 训 练 集 编码 
方式 不 是 完全 一 致 。 但 令 人 惊讶 的 是 ， 虽 然 给 出 的 训练 集 有 不 一 致 的 地 方 ，MBR 所 给 出 的 
结果 同 编辑 们 做 得 几乎 一 样 好 。 因 为 没有 足够 可 用 的 这 类 报导 作为 训练 集 ， 训 练 集 的 代码 是 
通过 专家 小 组 复审 得 来 的 ， 所 以 在 这 样 的 训练 集中 使 用 MBR ， 案 例 不 能 充分 地 做 调查 研究 。 

这 个 案例 说 明 ，MBR 能 解决 不 容易 被 其 他 方法 解决 的 困难 问题 。 大 多 数 数 据 挖掘 技术 
不 能 够 处 理 文本 数据 ， 而 且 同 时 分 配 多 个 种 类 总 是 困难 的 。 这 个 案例 显示 ， 藉 由 一 些 实验 ， 
MBR 方法 产生 的 结果 能 够 与 人 类 专家 相 媲 美 。 对 于 如 何 测量 MBR 在 评估 文档 分 类 或 检索 
系统 方面 的 表现 ， 在 后 面 “ 测 量 分 配 代码 的 有 效 性 ”部 分 中 有 进一步 的 讨论 。 这 个 案例 达到 
这 样 的 结果 大 约 花费 了 两 个 人 数 月 的 努力 (不 包括 相关 性 反馈 引擎 的 开发 时 间 )。 但 作为 比 
较 ， 像 以 专家 系统 为 基础 的 那些 其 他 的 自动 分 类 技术 ， 对 新 闻 报 导 分 类 大 概 需要 许多 人 数 年 
的 努力 才能 达到 相同 的 结果 。 


8.4 测量 距离 


假设 你 将 要 到 一 个 小 城镇 去 旅行 ， 想 要 知道 那儿 的 天 气 。 如 果 有 一 份 列 出 主要 城市 天 气 
预报 的 报纸 ， 通 常 你 会 做 的 就 是 找 出 那个 小 城镇 附近 大 城市 的 天 气 。 你 可 能 把 最 靠近 的 城市 
当成 该 镇 的 天 气 ， 或 者 把 三 个 最 靠近 的 城市 天 气 状 况 做 出 某 种 合并 组 合 来 预测 其 天 气 情况 。 
这 是 使 用 MBR 方法 得 出 天 气 预 报 的 实例 ， 所 使 用 的 距离 函数 是 在 两 个 位 置 之 间 的 地 理 距 
离 。 网 上 那些 以 邮政 编码 为 区 域 提供 天 气 预 报 的 服务 ， 采 用 的 有 可 能 就 是 这 类 原理 。 


8.4.1 什么 是 焉 离 函 数 


臣 离 是 MBR 测量 相似 性 的 一 个 手段 。 对 于 任何 的 真实 距 离 测 量 ， 从 点 4 到 点 也 的 距 
离 ， 记 为 d (4A， 刀 ) ， 有 四 个 主要 的 性 质 : 
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1) 定义 明确 : 在 两 个 点 之 间 的 焉 离 总 是 确定 的 ， 并 且 是 一 个 非 负 实数 ，d (4，B) >0。 

2) 周一 性 : 从 一 个 点 到 它 本 身 的 距离 总 是 零 ， 因 此 d (4A，A) =0。 

3) 可 交换 性 : 方向 不 会 造成 任何 差别 ， 因 此 从 4 到 B 的 距离 与 从 中 到 A 的 距离 是 相同 
的 : d (4A，B) =d (了 ，A)。 这 一 性 质 排 除了 单行 道 的 情况 。 

4) 满足 三 角形 不 等 式 : 在 从 A 到 互 的 途中 转 道 一 个 中 间 点 C， 永 远 不 会 缩短 曝 离 ， 因 
此 4 (4,，B) 入 d (4A，C) +d(C，B)。 

对 于 MBR， 所 谓 的 点 实际 上 是 一 条 数据 库 记 录 。 这 个 正规 定义 的 臣 离 是 测量 相似 性 的 
基础 ， 当 一 些 约束 条 件 放松 一 点 的 时 候 ，MBR 仍然 可 以 相当 好 地 完成 工作 。 例 如 ， 新 闻 报 
导 分 类 案例 中 的 距离 函数 是 不 可 交换 的 ; 即 从 一 个 新 闻 报 导 4 到 另外 一 个 电 的 臣 离 并 不 总 
是 等 同 于 从 召 到 A 的 距离 ， 但 是 相似 性 测量 对 分 类 目的 仍然 是 有 用 的 。 

到 底 什么 原因 使 这 些 性 质 对 MBR 有 用 ? 从 有 明确 定义 的 距离 这 个 概念 可 以 给 出 一 个 推 
论 : 在 数据 库 中 的 某 处 ， 每 个 记录 都 有 一 个 邻居 一 -MBR 需要 找到 邻居 才能 正常 工作 。 同 
一 性 使 距离 遵从 直觉 的 概念 : 给 定 记录 的 最 相似 记录 就 是 原始 记录 本 身 。 可 交换 性 和 三 角形 
不 等 式 使 最 近邻 居 成 为 局 部 的 和 表现 良好 的 。 在 数据 库 中 加 入 新 记录 不 会 使 当前 的 记录 靠 得 
更 近 。 相 似 性 只 是 一 次 衡量 两 个 记录 的 手段 。 

虽然 通过 测量 距离 找 最 近邻 的 方法 工作 良好 ， 但 最 近邻 的 集合 仍然 有 一 些 独特 的 性 质 。 
例如 ， 一 条 记录 如 的 最 近邻 居 可 能 是 4A， 但 是 4 可 能 有 许多 邻居 比 日 靠 得 更 近 ， 如 图 8-5 
所 示 ， 但 这 种 情形 不 会 给 MBR 造成 问题 。 


了 的 最 近邻 居 是 4 四 x 
其 
XXXx 机 ， 
X 忆 纤 X 
X > XXX 
所 
X 
4 的 所 有 这 些 邻 x 站 
居 比 妃 更 靠近 x 


图 8-$ 如 的 最 近邻 居 是 A， 但 是 A 有 许多 邻居 比如 靠 得 更 近 


测量 分 配 代 码 的 有 效 性 : 查 全 率 (recal) 和 查 准 率 (precision) 

要 确定 一 组 分 配 代码 或 关键 词 是 否 怡 当 ， 查 全 率 和 查 准 率 是 两 个 有 用 的 参数 。 例 如 ， 分 
配 新 闻 报 导 代 码 的 案例 中 ，MBR 给 新 闻 报 寻 分 配 了 许多 代码 。 查 全 率 和 查 准 率 能 用 来 评估 
这 些 分 配 的 好 坏 。 

查 全 率 可 以 回答 这 样 的 问题 : “ MBR 把 多 少 正确 的 代码 分 配 到 报导 中 ?” 它 是 MBR 分 
配 的 正确 代码 数 〈 经 过 编辑 所 验证 的 ) 与 报导 中 的 正确 代码 总 数 相 除 得 到 的 比率 。 如 果 MBR 
分 配 到 每 个 报导 的 所 有 代码 都 是 正确 的 ， 查 全 率 是 100% ， 因 为 正确 的 代码 全 部 被 分 配 ， 当 然 
里 面 还 包括 许多 其 他 无 关 代 码 。 如 果 MBR 不 给 任何 报导 分 配 代码 ， 其 查 全 率 是 0%。 

查 准 率 回答 的 问题 是 : “MBR 分 配 的 所 有 代码 中 ， 有 多 少 是 正确 的 ?” 它 是 指 MBR 分 
配 的 正确 代码 数 占 MBR 分 配 的 代码 总 数 的 百分比 。 当 MBR 为 报导 分 配 的 代码 全 部 正确 的 
时 候 ， 查 准 率 是 100% ; 当 MBR 给 每 个 报导 分 配 所 有 代码 的 时 候 ， 查 准 率 接 近 0%。 
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单独 给 出 的 查 全 率 或 查 准 率 本 身 并 不 能 完整 反映 分 类 的 好 坏 。 当 然 最 理想 的 情况 是 ， 我 
们 想 要 100% 的 查 全 率 和 100% 的 查 准 率 。 通 常 ， 牺 牲 其 中 的 一 个 可 以 提高 另 一 个 。 例 如 ， 
使 用 较 多 邻居 可 以 增加 查 全 率 ， 但 是 减少 查 准 率 ; 反 过 来 ， 提 高 阔 值 会 增加 查 准 率 ， 但 是 减 
少 查 全 率 。 表 8-5 给 出 了 几 个 特定 的 案例 ， 可 以 看 出 这 些 测 量 的 一 些 相互 影响 。 


表 8-5 ”关于 查 全 率 和 查 准 率 关 系 的 几 个 例子 


MBR 分 配 代码 正确 代码 但 全 率 查 准 率 
A，B，C，D A，B，C，D 100% 100% 
A，B A，B，C，D 50% 100% 
A，B，C，D，E，F，G，HH A，B，C，D 100% 50% 
下 ，F A，B，C，D 0% 0% 
A，B，E，F A，B，C，D 5S0% S0% 


与 校正 过 的 正确 代码 集 相 比较 ,被 编辑 个 人 分 配 到 报导 的 最 初代 码 有 83% 的 查 全 率 ， 
88% 的 查 准 率 。 对 于 MBR 分 配 的 代码 ， 是 80% 查 全 率 和 72% 的 查 准 率 。 然 而 ， 表 8-6 给 出 
的 对 所 有 分 类 的 平均 情况 表明 ，MBR 在 某 一 些 分 类 方面 做 得 更 好 。 


表 8-6 ”按照 代码 种 类 给 出 的 MBR 查 全 率 和 查 准 率 


种 类 查 全 率 查 准 率 
政府 85% 87% 
工业 界 91% 85% 
市 场 区 域 93% 91% 
产品 69% 89% 
区 域 86% 64% 
科目 72% 53% 


由 于 分 类 而 造成 结果 的 差异 意味 着 ; 可 能 没有 给 作为 训练 集 的 最 初 报导 分 配 一 致 的 代 
码 。 由 MBR 给 出 的 结果 最 多 只 能 与 被 选 为 训练 集 的 样本 的 结果 一 样 好 。 即 使 如 此 ，MBR 
的 表现 几乎 跟 最 有 经 验 的 编辑 一 社 好 。 


8.4.2 每 次 每 个 字段 只 建立 一 个 距离 项 数 


从 几何 学 的 概念 理解 距离 是 很 容易 的 ， 但 是 如 何 为 具有 许多 不 同类 型 不 同 字段 的 记录 来 
定义 距离 呢 ? 回答 是 : 每 次 一 个 字段 。 下 面 来 考虑 如 表 8-7 所 示 的 样本 记录 。 


表 8-7 ”营销 数据 库 中 的 五 个 客户 情况 


记 录 号 性 “ 别 年 龄 薪 人 金 
1 女 27 $19 000 
2 男 5S1 $64 000 
3 男 52 $105 000 
4 女 33 $55 000 
5 男 45 $45 000 


图 8-6 给 出 了 一 个 三 维 的 散 点 图 。 记 录 稍 微 有 点 复杂 ， 是 由 两 个 数值 字段 和 一 个 分 类 字 


ee 
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段 构成 的 。 这 个 实例 显示 了 应 该 如 何 给 每 一 个 字段 的 距离 函数 下 定义 ， 然 后 把 每 个 字段 的 距 
离 函数 组 合 在 一 起 ， 变 成 一 条 记录 的 臣 离 函数 ， 从 而 给 出 两 条 记录 之 间 的 距离 。 


25 30 35 40 45 50 55 60 
年 龄 


图 8-6 ”这 个 散 点 图 以 三 个 维度 一 一 年 龄 、 薪 金 和 性 别 图 示 了 表 8-7 中 的 五 条 记录 ， 
而 且 表 明 标准 距离 对 于 最 近邻 居 是 一 个 好 的 度量 


数值 字段 的 四 个 最 常用 的 距 离 函 数 是 : 

。 差 的 绝对 数值 : 14 一 也 | 

。 差 的 平方 : (4A-) 

。 归 一 化 绝对 值 : 1A -也 |/ (最 大 差 值 ) 

。 标 准 差 的 绝对 值 : | (A -均值 ) / (标准 差 ) - (中 - 均 值 ) / (标准 差 ) | ， 等 同 于 

| (4-B) / (标准 差 ) | 

归 一 化 绝对 值 的 优点 是 ， 它 总 是 在 0 和 1 之 间 。 在 这 个 实例 中 ， 由 于 年 龄 比 薪 金 的 数值 
要 小 许多 ， 对 它们 两 个 来 说 ， 归 一 化 绝对 值 是 一 个 好 的 选择 一 一 这 样 两 者 尼 不 会 主导 这 条 记 
录 的 臣 离 函数 (标准 差 也 是 一 个 好 的 选择 ) 。 对 于 年 龄 ， 距 离 矩阵 如 表 8-8 所 示 。 


表 8-8 ”基于 客户 年 龄 的 距离 矩阵 


27 51 32 33 45 
27 0.00 0.96 1.00 0.24 0.72 
51 0.96 0.00 0.04 0.72 0.24 
52 1.00 0.04 0.00 0.76 0.28 
33 0.24 0.72 0.76 0.00 0.48 
45 0.72 0.24 0.28 0.48 0.00 


性 别 是 一 个 分 类 数据 的 实例 。 最 简单 的 距离 函数 是 “ 恒 等 ” 函 数 ， 当 性 别 相同 的 时 候 是 
1， 和 否则 为 0: 

二 光 人 ES SE 

dear (female，male) =0 

deuae (male，femaie) =0 

deac (male，male) =1 


所 以 非常 简单 。 现 在 有 三 个 字段 的 距离 函数 ， 需 要 组 合 为 一 个 单个 记录 的 臣 离 函数 。 通 
常 有 三 种 最 常用 的 方法 : 
。Manhattan 离 或 代数 和 : 
dam (4A， 了 8B) =demdu (4A，B) +dee (4，B) +daa (4A， 也 ) 
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。 上 归 一 化 求 和 : du (4A，B) =dm (A， 日 ) [nax (dm) 
。 欧 几 里 得 几何 距离 : 

deuuiqg (A， 开 ) =sqrt (dmd (4A， 再 )2+dee (A， 电 )2+daay (A， 孔 )) ， 
表 8-9 显示 了 使 用 这 三 个 函数 得 出 的 每 一 个 点 的 最 近邻 居 。 


表 8.9 三 个 距离 函数 的 最 近邻 居 集 合 ， 按 量 近 到 最 远 排序 


dm du dudid 
1 二 27 1，4，S$，2，3 1 4 5，2) 3 
凤 2，3，3，4，1 2097237 .45 2，S$，3，4，1 
3 3，2，S，4，1 3 2 35 了 3，2，S，4，1 
4 0 才 5 江 让 汐 二 人 3 未 的 二 223 二 
5 S，2，3，4，1 SS 21 3 人 六 3 天才 让 二 


在 这 个 例子 中 ， 最 近邻 居 集 合 几乎 是 完全 相同 的 ， 不 管 各 个 臣 离 怎样 组 合 。 这 是 一 个 巧 
合 ， 原 因 是 五 个 记录 恰好 落 在 两 个 明确 定义 的 簇 中 。 繁 之 一 是 薪金 比较 低 的 年 轻 女 性 ， 另 一 
个 是 薪金 比较 高 的 较 年 长 的 男性 。 这 些 复 暗示 ， 相 对 于 某 一 个 字段 ， 如 果 两 个 记录 是 彼此 靠 
近 的 ,那么 它们 在 所 有 的 字段 都 是 相近 的 ， 所 以 在 每 个 字段 上 距离 的 组 合 方式 并 不 重要 。 通 
常 的 状况 却 不 是 这 样 的 。 

下 面 来 考虑 当 一 条 新 记录 ( 见 表 8-10) 用 于 比较 的 时 候 ， 情 况 会 怎样 。 

表 8-10 ”新 客户 的 记录 


记 录 号 性 别 年 龄 薪 人 金 
新 记录 女 45 $100 000 


这 条 新 记录 不 在 其 中 任 一 个 秘 中 。 表 8-11 中 列 出 了 它 与 训练 集 的 相应 臣 离 ， 以 及 它 的 
邻居 列表 (从 最 近 到 最 远 排序 ) 。 


表 8-11 新 客户 的 最 近邻 居 集 合 


1 2 3 4 S 邻居 
dm 1.662 1.659 1.338 革 .003 1.640 4，3，5，2，1 
dum 0.554 0.553 0.446 0.334 0.547 4，3，5，2，1 
duaad 0.781 1.052 1.2S1 0.494 1.000 4，1，5，2，3 


现在 的 邻居 集合 就 依赖 于 如 何 组 合 字段 距离 函数 来 求 得 记录 的 距离 函数 。 事 实 上 ， 使 用 
求 和 和 归 一 化 得 出 的 第 二 个 最 近邻 居 ， 是 使 用 欧 几 里 得 几何 得 出 的 最 远 邻居 ， 反 之 亦 然 。 与 
求 和 和 归 一 化 度量 相 比 ， 欧 几 里 得 几何 度量 更 倾向 于 给 出 所 有 的 字段 都 相对 接近 的 邻居 。 它 
排斥 记录 3， 是 因为 性 别 不 同 ， 而 且 其 上 距离 最 远 〈 达 1.00 的 距离 )。 因 为 性 别 是 相同 的 ， 所 
以 相应 地 它 支 持 记 录 1。 注 意 dm 和 drom 的 邻居 排序 是 相同 的 。 归 一 化 的 距离 定义 保留 了 求 
和 上 距 离 的 排序 一 一 距离 值 的 改变 仅仅 只 是 范围 从 0 到 1 的 改变 。 

求 和 、 欧 几 里 得 几何 以 及 归 一 化 函数 也 能 加 上 权重 ， 这 样 每 个 字段 对 记录 的 距离 函数 可 
以 贡献 一 个 不 同 的 量 。 通 常 所 有 的 权重 等 于 1 时 ，MBR 给 出 好 的 结果 。 然 而 ， 有 时 可 以 利 
用 权重 来 突出 某 个 重要 方面 ， 比 如 一 个 疑似 在 类 别 划分 方面 有 更 大 作用 的 特殊 字段 ， 就 可 以 
给 它 一 个 更 高 的 权重 。 
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8.4.3 其 他 数据 类 型 的 距离 函数 


一 个 5 位 数 的 美国 邮政 编码 常常 用 一 个 简单 数字 代替 。 对 于 数字 字段 ， 任 何 一 个 默认 的 
上 臣 离 函数 都 有 意义 吗 ? 不 是 ! 两 个 任意 的 邮政 编码 之 差 没 有 任何 意义 ， 更 确切 地 说 ， 是 几乎 
没有 意义 。 但 毕竟 一 个 邮政 编码 嵌入 了 位 置信 息 ， 例 如 ， 前 三 个 数字 代表 一 个 邮政 区 域 ， 
Manhattan 的 邮政 编码 即 是 以 “100”“101” 或 “102” 开 头 的 。 

此 外 ， 邮 政 编码 从 东 到 西 有 一 个 逐渐 增加 的 模式 。 从 0 开始 的 编码 在 New England 和 
Puerto Rico; 那些 以 9 开始 的 编码 在 西海 岸 。 这 就 暗示 了 这 样 一 个 距离 函数 : 可 通过 察看 邮 
政 编码 的 前 几 位 数 估 计 地 理 距 离 远近 。 

“di (4A,，B) =0.0 邮政 编码 相同 的 时 候 

“di (4，B) =0.1 前 三 位 数 相同 的 时 候 〈 比 如 “20008” 和 “20015”) 

“dp (4，B) =0.5 ， 仅 第 一 位 数 相同 的 时 候 〈 比 如 “95050” 和 “98125  ) 

“da (4,，B) =1.0 第 一 位 数 不 相同 的 时 候 (比如 ,“02138” 和 “94704 ) 

当然 ， 如 果 地 理 蝗 离 真 的 令 人 感 兴趣 ， 较 好 的 方法 是 在 表 中 查 出 一 个 邮政 编码 的 经 度 和 
纬度 ， 然 后 以 同样 的 方式 计算 距离 (关于 这 样 的 信息 ,在 美国 可 以 通过 访问 
www.census.gov 得 到 )。 然 而 对 于 许多 目的 ， 地 理 位 置 的 接近 并 不 像 其 他 衡量 相似 性 的 度量 
那么 重要 。10011 和 10031 两 者 都 在 Manhattan， 但 是 从 市 场 营销 的 角度 看 ， 它 们 并 没有 更 
多 相同 的 东西 ， 因 为 一 个 是 高 消费 阶层 的 市 中 心 区 域 ， 而 另 一 个 是 工人 阶层 的 黑人 住宅 区 ; 
另 一 方面 ，02138 和 94704 处 于 方向 完全 相反 的 两 个 海岸 ， 但 可 能 同样 地 响应 来 自 一 个 政治 
行动 委员 会 的 直接 邮寄 ， 因 为 它们 分 别 对 应 于 麻 省 的 剑桥 〈Cambridge，MA) 和 加 州 的 伯 克 
利 (Berkeley，CA)。 

这 只 是 距离 选择 怎样 依赖 于 数据 挖掘 环境 的 一 个 实例 。 在 第 11 章 中 会 讲 到 另外 一 些 测 
量 距 离 和 相似 性 的 例子 ， 在 那里 它们 被 应 用 于 聚 类 。. 


8.4.4 当 距 离 度量 已 经 存在 时 


有 一 些 情形 ， 距 离 度量 已 经 存在 ， 但 是 难以 发 现 ， 这 样 的 情况 通常 以 两 种 形式 出 现 。 其 
一 ， 已 经 存在 一 个 函数 ， 通 过 适当 改变 可 以 作为 MBR 中 使 用 的 距 离 国 数 。 新 闻 报 导 案 例 提 
供 了 一 个 好 的 实例 ， 把 已 经 存在 的 函数 一 一 相关 性 反馈 得 分 一 一 用 作 一 个 距离 函数 。 

其 二 是 ， 有 一 些 字段 虽然 与 距离 不 沾边 ， 但 也 能 够 借用 来 为 MBR 服务 。 一 个 这 类 隐藏 
臣 离 字段 的 实例 是 诱惑 历史 (solicitation history) : 过 去 为 一 个 特别 的 诱惑 选择 的 两 个 客户 是 
“相近 的 ”， 即 使 他 们 被 选择 的 理由 可 能 不 再 适用 ; 设 被 选择 的 两 个 客户 也 是 相近 的 ， 但 是 不 
如 前 者 相近 ; 而 一 个 被 选择 的 和 一 个 没 被 选择 的 客户 是 遥远 地 分 开 的 。 这 种 度量 的 优势 是 它 
能 融和 以 前 的 判断 ， 即 使 当初 判断 的 基础 不 再 有 效 。 另 一 方面 ， 对 那些 在 一 开始 就 没 包括 在 
诱惑 活动 对 象 里 的 客户 ， 它 不 会 很 好 地 起 作用 ; 所 以 某 些 类 的 中 性 权重 必须 加 进来 。 

考虑 初始 被 诱 感 客 户 是 否 响应 了 最 初 的 诱惑 ， 能 更 进一步 扩充 这 个 函数 ， 形 成 一 个 诱惑 
度量 ， 如 ; 

。dsiaaiom (4， 忆 ) =0， 当 A 和 两 者 都 响应 诱惑 

。duiaaion (A，) =0.1， 当 A 和 昌都 被 选择 ， 但 都 未 响应 

。duiuaiom (4A，B) =0.2， 当 A4 和 忆 只 有 一 个 被 选择 ， 但 是 两 者 的 数据 都 有 效 
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。 duiuuum (4，B) =0.3， 当 4 和 如 都 被 选择 ， 但 是 只 有 一 个 响应 时 

。duiaaim (4，B) =0.3， 当 一 个 或 两 个 不 被 考虑 的 时 候 

*。duiaatim (4，B) =1.0， 当 一 个 被 选择 ， 而 且 另 一 个 不 被 选择 的 时 候 

当然 ， 这 些 特别 的 数值 并 非 不 可 变更 ， 它 们 只 作为 相似 性 测量 指导 ， 而 且 展 示 了 以 前 的 
信息 和 响应 历史 该 如 何 融 人 距离 函数 之 内 。 


8.5 组 合 函 数 : 向 邻居 求 答案 


距离 函数 用 来 决定 哪 条 记录 可 以 包含 在 邻居 中 。 这 一 节 将 介绍 通过 组 合 不 同 邻 居 的 数据 
做 出 预测 的 其 他 方法 。 在 本 章 的 开始 ， 我 们 估计 了 Tuxedo 镇 的 中 值 房租 ， 采 用 的 方法 是 取 
相似 城镇 的 中 值 房租 的 平均 。 在 那个 实例 中 ， 平 均 就 是 组 合 函 数 。 这 一 节 将 探究 寻找 邻居 的 
其 他 方法 。 


8.5.1 基本 的 方法 : 民主 


一 个 通常 的 组 合 函 数 是 由 & 个 最 近邻 居 投 票 给 出 一 个 答案 一 一 在 数据 挖掘 中 发 扬 “ 民 
主 "。 当 MBR 用 于 分 类 的 时 候 ， 每 个 邻居 都 会 把 票 投 给 自己 的 类 ， 从 赞成 每 个 类 的 票数 比 
例 可 以 佑 计 新 记录 属于 某 相 应 类 的 可 能 性 。 当 任务 仅 是 分 配 一 个 单一 类 别 的 时 候 ， 新 记录 就 
属于 有 最 多 选票 的 那 一 个 。 当 只 有 两 个 类 的 时 候 ， 所 选 的 邻居 数目 应 为 奇数 以 避免 出 现 平 
局 。 有 一 个 经 验 法 则 ， 当 有 c 个 类 的 时 候 ， 至 少 要 使 用 c+ 1 个 邻居 以 保证 某 一 分 类 有 一 个 
相对 多 数 。 

在 表 8-12 中 ， 是 先前 提 到 的 五 个 测试 记录 ， 针 对 客户 是 否 已 经 变 得 不 活 牙 增加 了 一 个 


表 8-12 ”具有 流失 历史 的 客户 


记 录 号 性 别 年 龄 薪 人 金 不 活 牙 
1 女 27 $19 000 No 
2 男 51 $64 000 Yes 
3 男 52 $105 000 Yes 
4 女 33 $55 000 Yes 
5 男 45 $45 000 No 
新 记录 女 45 $100 000 ? 


对 于 这 个 实例 ， 其 中 的 三 个 客户 已 经 变 得 不 活跃 ， 另 外 两 个 依然 活跃 ， 这 是 一 个 几乎 平 
衡 的 训练 集 。 出 于 说 明 的 目的 ， 如 果 使 用 & 的 不 同 数值 作为 两 个 距离 画 数 dsuud 和 dm ( 见 
表 8-13)， 让 我 们 试 着 确定 新 的 记录 是 活 牙 的 还 是 不 活跃 的。 


表 8-13 ”使 用 MBR 确定 新 客户 是 否 会 不 活跃 


邻居 邻居 流失 &=1 玉 =2 民 =3 开 =4 有 &=5 
da 4，3，S$，2，1 Y，Y，N，Y，N yes yes yes yes yes 
dEuaid 4，1，5，2，3 Y，N，N，Y，Y yes ? no 李 yes 


问号 表示 由 于 邻居 打 成 平手 而 没有 给 出 明确 预测 的 情况 。 可 以 看 出 ，& 的 不 同 数值 确实 


免费 领取 更 多 资源 V: 3446034937 


过 近 邹 方法 : 故 于 新 售 具 区 理 布 砍 司 过渡 191 


影响 到 分 类 状况 。 这 说 明 使 用 一 致 的 邻居 百分率 可 以 提供 对 置信 和 度 水 平 的 预测 ( 表 8-14)。 
表 8-14 带 置 信 度 的 客户 流失 预测 


玉 三 工 到 三 了 玉 二 了 开 二 4 素 二 了 
二 yes，100% yes，100% yes，67% yes，7S% yes，60% 
duaid yes，100% yes，30% no，67% yes，35S0% yes，60% 


当 有 两 个 以 上 种 类 时 ， 同 样 可 以 用 置信 和 度 水 平 进行 判断 。 然 而 ， 有 较 多 类 的 情况 下 ， 很 
可 能 没有 单个 类 会 有 绝对 多 数 票 。MBR (和 大 多 数 数据 挖掘 方法 一 样 ) 的 主要 假设 之 一 是 ， 
训练 集 能 为 预言 性 目的 提供 充分 的 信息 。 如 果 新 记录 的 邻居 们 总 是 不 能 给 出 新 记录 类 别 的 明 
显 选择 ， 那 么 数据 也 许 没 有 包含 必要 的 信息 ， 维 度 的 选择 甚至 可 能 训练 集 的 选择 都 需要 重新 
评估 。 通 过 测量 MBR 在 测试 集 上 的 有 效 性 ， 你 能 判断 训练 集 是 否 有 足够 数目 的 样本 。 

芍 告 ， MBR 能 达到 的 最 好 水 平 是 和 它 使 用 的 训练 集 一 样 。 为 了 测量 训练 集 是 否 有 

效 ， 可 以 在 测试 集中 使 用 2、3 和 4 个 邻居 ， 观 察 它 预测 的 结果 ， 如 果 结 果 是 不 确 

定 的 或 不 准确 的 ， 那 么 原因 可 能 是 ， 训 练 集 不 够 大 ， 或 者 维度 和 距离 度量 选择 

不 当 。 


8.5.2 加 权 投 票 


加 权 投 票 (weighted voting) 与 前 一 节 中 的 投票 类 似 ， 只 不 过 邻居 并 不 是 完全 平等 
的 一 一 更 像 大 小 不 同 的 股东 们 的 民主 ， 不 是 一 人 一 票 。 选 票 的 比重 与 上 距 新 记录 的 距离 成 反比 
关系 ， 因 此 ， 近 的 邻居 比 远 的 邻居 有 更 高 的 选票 比重 。 为 了 避免 下 离 可 能 是 0 的 问题 ， 通 党 
在 取 倒 数 以 前 ， 把 臣 离 加 1， 增加 1 也 使 得 所 有 的 选票 权重 值 在 0 和 1 之 间 。 

表 8-15 把 加 权 投 票 应 用 到 前 述 实例 中 。“ 是 的 ， 客 户 将 会 不 活跃 ”的 选票 是 第 一 ， 那 些 
“不 ， 这 是 好 客户 ”的 选票 排 第 二 。 


表 8-15 ”使 用 加 权 投 票 预测 客户 流失 


开 二 1 开 三 2 有 三 3 开 二 4 开 =5 
dam 0.749 一 0 1.441 一 0 1.441 一 0.647 2.08S 一 0.647 2.08S 一 1.290 
dEucid 0.669 一 0 0.669 一 0.562 0.669 一 1.062 1.157 一 1.062 1.601 一 1.062 


加 权 投 票 已 经 引进 充足 的 变化 避免 出 现 平局 ， 置 信和 度 可 以 由 赢得 选票 与 总 选票 的 比率 
( 表 8-16) 进行 计算 。 


表 8-16 ”加 权 投 票 给 出 的 置信 度 


2 3 4 3 
dam yes，100% yes，100% yes，69% yes，76% yes，62 听 
qdEucsid yes，100% yes，94 no，619% yes，S2 % yes，60% 


在 这 个 例子 中 ， 为 选票 加 权 对 结果 和 置信 度 只 有 小 的 影响 。 而 当 一 些 邻居 距 另 外 的 邻居 
相当 远 的 时 候 ， 加 权 的 影响 是 最 大 的 。 

如 果 用 加 权 上 距离 的 平均 值 来 代替 邻近 值 的 简单 平均 ， 加 权 也 可 以 用 于 估计 (estima- 
tion)。 这 种 方法 可 以 用 于 协同 过 滤 体 系 ， 正 如 下 一 节 将 要 描述 的 。 
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8.6 协同 过 滤 : 可 以 做 出 推荐 的 最 近邻 方法 


本 书 的 作者 没有 一 个 人 认为 自己 是 乡村 音乐 迷 ， 但 是 其 中 的 一 个 却 自 豪 地 拥有 演唱 者 亲 
笔 签 名 的 Dixie Chicks 乐队 的 早期 CD。Chicks 乐队 ， 那 时 还 不 是 一 个 响亮 的 乐队 ， 当 时 正 
在 一 个 当地 酒吧 进行 表演 ， 来 自 德 克 萨 斯 的 一 些 认识 他 们 的 朋友 作 了 热情 的 推荐 。 表 演 真 的 
令 人 难忘 ， 尤 其 是 Martie Erwin 完美 无 马 的 蓝 草 音 乐 小 提琴 ， 她 妹妹 Emily 演奏 的 各 种 令 人 
眼花 综 乱 的 乐器 (大 多 数 是 弦乐器 ， 但 是 有 些 不 是 )， 和 Laura Lynch 那 富有 魅力 的 声音 
《她 也 弹 一 把 电 贝 司 )。 在 演出 间隙 ， 她 们 曾 亲 笔 签 名 售卖 自制 的 CD， 我 们 更 喜欢 这 盘 CD， 
尽管 后 来 的 CD 为 她 们 赢得 了 葛 菜 美 奖 。 这 个 例子 与 最 近邻 居 技 术 有 什么 关系 吗 ? 对 了 ， 这 
就 是 一 个 应 用 协同 过 滤 的 实例 。 来 自信 赖 朋 友 的 推荐 将 会 导致 一 个 人 尝试 某 事 ， 如 果 没 有 这 
个 推荐 的 话 ， 他 根本 不 可 能 去 试 。 

协同 过 滤 是 一 个 基于 存储 的 推理 的 变形 ， 特 别 适 合 于 提供 个 性 化 推荐 方面 的 应 用 。 协 同 
过 滤 系 统 从 人 们 的 喜好 历史 开始 。 距 离 函 数 基于 喜好 重 春 确定 相似 性 一 一 喜欢 同样 事物 的 人 
是 相近 的 。 此 外 ， 选 票 有 一 个 距离 权重 ， 因 此 ， 较 近 的 邻居 选票 在 推荐 中 占 的 比重 更 大 。 换 
名 话说 ， 它 是 使 用 一 个 已 选 出 的 同年 龄 组 的 相似 口味 为 判 据 ， 发 现 音 乐 、 书 籍 、 酒 或 其 他 东 
西 是 否 适 合 某 个 人 的 技术 。 这 一 方法 也 被 称 作 社 会 信息 过 滤 (social information filtering)。 

协同 过 滤 是 利用 口头 语言 确定 人 们 是 否 喜 欢 某 事 的 自动 化 过 程 。 知 道 许多 人 喜欢 某 件 事 
并 不 够 ， 哪 些 人 喜欢 它 也 是 重要 的 。 每 个 人 对 于 一 些 推荐 的 评价 总 可 能 比 另 外 一 些 人 更 高 。 
过 去 曾经 做 过 正确 推荐 的 亲密 朋友 的 推荐 可 能 足以 让 你 去 看 一 场 新 电影 ， 即 使 它 属于 一 个 你 
通常 不 喜欢 的 流派 。 另 一 方面 ， 一 个 朋友 认为 “Ace Ventura: Pet Detective” 是 他 看 过 的 最 
好 笑 电影 ， 热 情 地 推荐 给 你 ， 但 你 可 能 不 去 看 这 样 一 部 你 原来 可 能 想 看 的 电影 。 

使 用 自动 协同 过 滤 系 统 为 一 个 新 客户 准备 推荐 有 三 个 步 又: 

1) 让 新 客户 估价 一 些 挑选 出 的 项 目 ， 如 电影 、 歌 曲 或 餐馆 ， 建 立 一 个 客户 简 档 。 

2) 使 用 某 种 相似 性 度量 ， 比 较 新 客户 的 简 档 与 其 他 客户 的 简 档 。 

3) 按照 简 档 的 相似 性 把 客户 分 级 ， 利 用 客户 分 级 组 合 可 以 预测 新 客户 会 把 他 〈 或 她 ) 
没有 分 级 的 项 目 分 到 哪 一 个 级 。 

下 面 几 节 将 更 详细 地 介绍 上 述 步骤 。 


8.6.1 建立 简 档 


协同 过 滤 的 一 个 挑战 是 ， 时 常 有 较 多 的 项 目 需要 分 级 ， 这 上 比 任何 人 可 能 遇 到 的 或 者 愿意 
做 的 都 要 多 。 简 档 通 常 是 不 足 的， 这 意味 着 用 作 推 荐 的 使 用 者 喜好 之 间 有 很 少 重 肆 。 在 将 要 
分 级 的 大 量 项 目 中 ， 可 以 把 使 用 者 简 档 看 做 一 个 矢量 ， 简 档 中 的 每 个 项 目 对 应 于 矢量 中 的 一 
个 分 量 〈element)。 矢 量 的 每 个 分 量 代表 简 档 所 有 者 对 某 个 项 目的 分 级 情况 ,项 目 按照 从 
-5 到 5 的 等 级 划分 ，0 表示 中 立 ， 空 表示 没有 评价 意见 。 

如 果 矢 量 中 包含 数 千 或 数 万 个 分 量 ， 而 且 每 个 客户 自己 决定 分 级 娜 一 些 项 目 ， 那 么 最 后 
很 可 能 任意 两 个 客户 的 简 档 都 仅 有 极 少数 重 肆 。 另 一 方面 ， 让 客户 对 一 个 特别 的 子 集 分 级 ， 
可 能 错过 重要 的 信息 ， 因 为 较 模糊 项 目的 分 级 可 能 侧重 于 客户 自身 ， 而 不 是 对 通常 项 目的 分 
级 状况 ， 比 如 对 披 头 士 乐队 的 喜爱 比 对 Mose Allison 的 喜爱 显示 的 信息 更 少 。 

一 个 合理 的 方法 是 让 新 客户 分 级 20 个 左右 最 常 分 级 的 项 目 〈 当 然 这 个 列表 可 以 随时 间 
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改变 ) ， 然 后 请 他 们 自由 地 给 尽 可 能 多 的 额外 项 目 分 级 。 
8.6.2 比较 简 档 


建立 客户 简 档 以 后 ， 下 一 步 工作 就 是 测量 它 与 其 他 简 档 的 距离 。 最 直接 的 方法 可 能 是 视 
简 档 矢量 为 几何 学 的 点 ， 计 算 它 们 之 间 的 欧 几 里 得 几何 距离 ， 当 然 ， 人 们 还 尝试 了 许多 其 他 
的 距离 度量 方法 。 为 了 与 最 后 的 结果 一 致 ， 有 时 会 给 一 个 正面 分 级 的 用 户 较 高 的 权重 ， 尤 其 
是 在 多 数 用 户 给 多 数 项 目 负面 分 级 的 时 候 更 是 如 此 ; 当然 ， 另 外 一 些 人 把 统计 关联 测试 应 用 
到 矢量 分 级 中 。 


8.6.3 做 出 预测 


最 后 一 步 是 使 用 一 些 近邻 简 档 的 组 合 ， 为 客户 尚未 分 级 的 项 目 给 出 一 个 估计 的 分 级 。 一 
种 方法 是 取 加 权 平 均 ， 所 用 的 权重 与 距离 成 反比 。 图 8-7 所 示 实 例 说 明 ， 以 邻居 Simon 和 
Amelia 的 意见 为 基础 ， 如 何 估计 Nathaniel 给 电影 “Planet of the Apes” 的 分 级 。 


Crouching Tiger 


Ap Crouching Tiger 
Osmosis Jones jypse Now 
American Pie 2 


Vertical Ray of Sun 
Plan 9 From Oufer Space Apes 


Planet Of The 

Osmosis Jones 
American Pie 2 

Plan 9 From Outer Space 


图 8-7 预测 给 电影 “Planet of the Apes” 的 等 级 分 是 -2.66 


距离 是 2 的 Simon 给 予 该 电影 一 个 -1 的 分 级 ， 距 离 是 4 的 Amelia 给 予 该 电影 一 个 一 4 
的 分 级 。 在 这 次 投票 中 ， 没 有 其 他 人 的 简 档 与 Nathaniel 的 简 档 更 接近 。 因 为 Amelia 的 距离 是 
Simon 的 两 倍 ， 她 的 选票 权重 只 及 Simon 的 一 半 ， 按 照 距 离 权重 为 Nathaniel 的 分 级 估计 是 : 
代 和 = 让 十 1 网 《= 和 JETTA) 三 一 3M0.73= =2 
好 的 协同 过 滤 系 统 给 使 用 者 提供 机 会 来 适当 地 评论 预测 ， 然 后 调整 简 档 。 在 这 个 实例 
中 ， 尽 管 Nathaniel 有 将 不 喜欢 电影 “Planet of the Apes” 的 预测 ， 但 如 果 他 真 的 去 租借 了 这 
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个 电影 的 录像 带 ， 他 就 会 有 一 个 自己 的 实际 分 级 。 如 果 他 真 的 喜欢 这 部 电影 而 且 给 它 一 个 4 
的 分 级 ， 他 的 新 简 档 邻居 将 会 有 稍微 不 同 的 改变 ，Simnon 和 Amelia 的 意见 将 会 在 对 
Nathaniel 的 下 一 次 推荐 中 占 比 较 少 的 权重 。 


8.7 小 结 


基于 存储 的 推理 是 一 项 有 力 的 数据 挖掘 技术 ， 能 用 来 解释 各 式 各 样 的 数据 控 据 问题 ， 包 
括 分 类 和 估计 。 其 他 的 数据 控 气 技术， 一 般 需 要 先 使 用 一 个 有 预 分 类 数据 的 训练 集 产 生 一 个 
模型 ， 然 后 再 抛 开 训练 集 工作 ; 而 对 于 MBR 不 是 这 样 ， 它 的 训练 集 实际 上 就 是 模型 本 身 。 

选择 正确 的 训练 集 大 概 是 MBR 最 重要 的 一 步 。 训 练 集 需 要 包括 覆盖 所 有 可 能 类 别 的 样 
本 。 这 说 明 ， 为 了 产生 一 个 对 所 有 的 类 都 有 大 约 相同 数目 实例 的 平衡 训练 集 ， 对 于 罕见 分 
类 ， 需 要 包含 一 些 数 目 不 成 比例 的 罕见 类 别 实 例 以 丰富 该 训练 集 。 如 果 训 练 集 只 包括 差 的 客 
户 实例 ， 给 出 的 预测 结果 可 能 是 ， 所 有 的 客户 都 是 差 的 。 一 般 来 说 ， 训 练 集 如 果 没 有 数 十 万 
或 数 百 万 个 样本 的 话 ， 至 少 应 该 有 数 干 个 样本 。 

MBR 是 一 种 寻找 & 个 最 近邻 居 的 方法 ， 决 定 邻 居 的 远近 需要 一 个 距离 函数 。 有 许多 方 
法 可 以 测量 两 个 记录 之 间 的 芷 离 ， 仔 细 选 择 适 当 的 距离 冰 数 对 MBR 的 使 用 是 非常 关键 的 一 
步 。 本 章 引 人 了 一 个 方法 : 通过 为 每 个 字段 建立 一 个 距离 函数 而 且 使 它 归 一 化 ， 产 生 一 个 总 
的 距离 函数 。 这 个 归 一 化 的 字段 距离 可 以 通过 欧 几 里 得 几何 的 方式 组 合 ， 或 者 求 和 来 产生 一 
个 Manhattan 旺 离 。 

当 使 用 欧 几 里 得 几何 方法 时 ， 任 何 一 个 字段 中 出 现 大 的 差别 都 足以 导致 要 考察 的 两 个 记 
录 远 远 分 开 。Manhattan 方法 更 宽容 一 些 一 一 在 一 个 字段 上 的 大 的 差别 可 以 容易 地 被 其 他 字 
段 上 的 接近 所 抵消 。 通 过 将 模型 集 应 用 于 所 有 候选 距离 函数 以 找到 给 出 较 好 结果 的 函数 ， 验 
证 集 可 以 为 一 个 给 定 的 模型 找 出 最 佳 距 离 函 数 。 邻 居 的 正确 选择 有 时 需要 调整 距离 机 数 ， 以 
使 一 些 字 段 比 另外 一 些 更 有 利 ， 这 可 以 通过 将 权重 引信 距 离 函 数 来 容易 地 完成 。 

下 一 个 问题 是 选择 邻居 数目 。 再 次 利用 验证 集 找 出 不 同 数目 的 邻居 可 以 帮助 确定 邻居 的 
最 佳 数 目 。 邻 居 的 数目 实际 上 没有 一 个 确切 值 ， 因 为 该 数目 依赖 数据 的 分 布 状 况 ， 而 且 与 被 
解决 的 问题 密切 相关 。 

基本 的 加 权 投 票 式 组 合 函数 对 于 分 类 数据 工作 良好 ， 所 使 用 的 权重 与 距离 成 反比 。 用 于 
估计 数字 型 数值 的 类 似 运 算是 取 一 个 加 权 平 均 。 

基于 存储 的 推理 方法 的 一 个 很 好 应 用 就 是 做 出 推荐 。 协 同 过 滤 也 是 一 个 做 出 推荐 的 方 
法 ， 它 使 用 距离 果 数 来 比较 两 个 用 户 分 级 列表 ， 把 具有 相似 口味 的 人 归 为 一 组 。 给 一 个 新 人 
作 推 荐 是 通过 加 权 平 均 他 或 她 最 近邻 居 的 分 级 来 计算 的 。 
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第 9 章 购物 篮 分 析 和 关联 规则 


为 传达 购物 篮 分 析 (market basket analysis) 的 基本 思想 ， 我 们 将 从 图 9-1 所 示 商 店 手 推 
车 的 情形 开始 ,手推车 中 装 满 了 某 人 到 一 家 超市 购物 时 购买 的 各 种 产品 。 这 个 购物 篮 包 含 了 
橙 计 、 香 若 、 软 饮料 、 擦 窗 器 和 清洁 剂 。 购 物 篮 告诉 我 们 客户 会 同时 购买 什么 。 所 有 客户 的 
完整 购物 列表 提供 很 多 信息 ， 描 述 了 零售 业 的 最 重要 信息 一 一 客户 在 购买 什么 商品 以 及 何 时 
购买 。 
在 这 一 购物 篮 中 ， 顾 客 购买 了 


一 夸 脱 栖 汁 、 一 些 香 花 、 盘 具 
清洁 剂 、 一 些 擦 窗 器 和 6 包 
汽水 。 


汽水 和 香花 一 同 购买 有 代表 


地 区 人 口 统计 学 如 何 性 吗 ? 汽水 的 牌子 有 影响 吗 ? 


影响 客户 购买 什么 ? 


购物 篮 中 应 当 有 
什么 但 还 没有 ? 
窗户 清洁 产品 是 在 清洁 剂 和 
橙 计 一 同 购买 时 被 购买 的 吗 ? 
图 9-1 购物 篮 分 析 不 仅 有 助 于 理解 客户 ， 也 有 助 于 理解 他 们 一 同 购买 的 项 


每 个 客户 都 会 购买 不 同 产品 ， 其 购买 数量 不 同 ， 购 买 时 间 不 同 。 购 物 篮 分 析 使 用 关于 客 
户 购买 物品 的 信息 ,来 深入 了 解 他 们 是 谁 和 他 们 为 什么 做 出 某 种 购买 。 购 物 篮 分 析 通 过 告诉 
我 们 哪些 产品 倾向 于 被 一 起 购买 和 哪些 产品 最 有 必要 促销 来 提供 对 产品 的 深入 了 解 。 这 些 信 
息 是 可 操作 的 : 它 能 建议 新 的 铺 货 规划 ， 确 定 哪 些 产品 上 架 ， 指 导 何 时 发 优惠 券 等 。 如 采 这 
一 数据 能 够 通过 忠诚 卡 或 网 站 注册 与 个 别 客户 结合 起 来 ， 就 变 得 更 有 价值 了 。 

与 购物 篮 分 析 最 密切 的 数据 挖掘 技术 是 关联 规则 (association rule) 的 自动 生成 。 关 联 
规则 代表 没有 特定 目标 的 数据 中 的 模式 。 同 样 ， 它 们 是 非 定 向 数据 挖掘 〈undirected data 
mining) 的 实例 ， 模 式 是 否 有 意义 由 人 类 作出 解释 。 

关联 规则 最 初 用 于 描述 诸如 什么 产品 被 同时 购买 的 销售 点 数据 (point-of-sale)。 尽 管 它 
最 初 是 用 于 分 析 销 售 点 交易 ， 但 也 能 够 应 用 于 零售 业 之 外 去 发 现 其 他 类 型 的 “篮子 ”之 间 的 
关系 。 一 些 可 能 的 应 用 例子 是 : 

。 用 信用 卡 消 费 的 项 ， 诸 如 租车 和 旅馆 房间 ， 提 供 对 客户 可 能 购买 的 下 一 产品 的 深入 

了 解 。 
。 移动 通信 客户 购买 的 可 选 服 务 〈 呼 叫 等 待 、 呼 叫 转移 、 数 字 用 户 线路 [Digital Subscriber 
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Line，DSL]、 快 速 呼叫 等 )， 帮 助 确定 如 何 把 这 些 服 务 捆绑 到 一 起 ， 以 获得 最 大 收益 。 

。 和 零售 客 户 使 用 的 金融 服务 (现金 销售 账户 、 现 金 付 款 机 [Cash Dispenser，CD1、 投 资 

服务 、 购 车 贷款 等 )， 识 别 客户 可 能 想 要 的 其 他 服务 。 

。 不 寻常 的 保险 索赔 〈insurance claim) 组 合 可 能 是 欺诈 的 征兆 ， 能 够 激发 深 入 的 调查 。 

。 医 学 病史 能 基于 治疗 的 特定 组 合 指示 可 能 的 并 发 症 。 

关联 规则 常常 无 法 实践 期 望 。 例 如 在 我 们 的 经 验 中 ， 它 们 对 在 诸如 小 额 银 行业 务 等 领域 
建立 交叉 销售 〈cross-selling) 模型 并 不 是 一 个 好 的 选择 ， 因 为 规则 以 描述 前 一 营销 促销 活动 
而 告终 。 同 样 ， 在 小 额 银 行业 务 中 ， 客 户 以 支票 账户 〈checking account) 开始 ， 然 后 成 为 储 
车 存 款 账 户 〈savings account) 也 很 有 代表 性 。 产 品 之 间 的 区 别 直 到 客户 拥有 更 多 的 产品 才 
会 发 现 。 本 章 不 仅 涵盖 了 关联 规则 的 用 途 也 包含 其 缺陷 。 

木 章 首 先 概述 购 物 能 分 析 ， 包 括 对 于 不 需要 关联 规则 的 购物 复数 据 的 更 基本 分 析 。 此 后 
转向 关联 规则 ， 解 释 如 何 得 到 它们 ， 然 后 继续 讨论 扩展 关联 规则 使 之 包括 购物 篮 分 析 其 他 方 
面 的 方法 。 


9.1 定义 购物 篮 分 析 


购物 篮 分 析 不 是 指 一 种 单一 的 技术 ， 它 指 的 是 一 组 与 了 解 销售 点 交易 数据 (transaction 
data) 有 关 的 商业 问题 ， 其 中 最 通用 的 技术 是 关联 规则 ， 本 章 大 部 分 内 容 深 入 研究 这 个 课 
题 。 在 讨论 关联 规则 之 前 ， 本 小 节 讨 论 购 物 篮 数据 。 


9.1.1 购物 篮 数据 的 三 个 层次 
购物 篮 数据 描述 三 个 完全 不 同 实体 的 交易 数据 ; 


。 顾客 
“订单 (也 称 作 购 买 或 篮子 ， 或 在 学 术 论文 中 称 为 项 集 ) 
人 项 


在 关系 数据 库 中 ， 购 物 篮 数据 的 数据 结构 看 上 去 与 图 9-2 类 似 ， 这 一 数据 结构 包括 四 个 
重要 的 实体 。 


订单 项 
订单 品 
客户 LINE ITEM ID 7 
5 」oRDpERID 
CUSTOMER ID CUSTOMERID PRODUCT ID GATESCHYE 
NAME 
ORDER DATE SUBCATEGORY 


ADDRESS PAYMENT TYPE 
etc. UNIT COST IO 


GIFT WRAP FLAG 


SHIPPING COST TAXABLE FLAG 
etc. etc. 


图 9-2 ”代表 交易 层次 购物 篮 数 据 的 数据 模型 通常 有 三 个 表 ， 
一 个 关于 客户 ， 一 个 关于 订单 ， 一 个 关于 订单 项 
订单 是 购物 篮 数据 的 基本 数据 结构 。 一 个 订单 代表 客户 的 单个 购买 事件 。 这 可 能 对 应 于 
客户 在 网 站 上 订购 若干 产品 ， 或 客户 购买 一 篮子 杂货 ， 或 客户 从 一 个 目录 中 购买 了 若干 项 。 
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这 包括 购买 的 总 量 、 总 金额 、 额 外 的 运输 费用 、 支 付 类 型 ， 和 与 该 交易 相关 的 任何 其 他 数 
据 。 有 时 该 交易 被 贱 予 一 个 惟一 标识 符 。 有 时 该 惟一 标识 符 需 要 根据 其 他 数据 进行 调整 。 在 
一 个 例子 中 ， 我 们 需要 组 合 四 个 字段 得 到 代表 在 商店 购物 的 一 个 标识 符 一 一 客户 支付 的 时 间 
戳 、 连 锁 店 代码 〈ID) 、 商 店 代码 和 街 埠 代码 。 

订单 中 的 单个 项 分 别 表示 为 订单 项 ， 包 括 该 项 的 支付 价格 、 单 项 产品 的 数量 、 是 否 应 当 
收取 税 款 ， 或 许 还 有 成 本 〈 能 够 用 于 计算 利润 )。 项 表 当 中 通常 还 有 一 个 到 产品 参照 表 的 链 
接 ， 对 每 一 产品 提供 更 多 的 描述 信息 。 这 一 描述 信息 包括 产品 分 层 和 其 他 可 能 证 明 对 分 析 有 
价值 的 信息 。 

客户 表 是 一 个 可 选 的 表格 ， 当 客户 能 够 被 识别 时 应 当 是 可 用 的 ， 例 如 ， 在 一 个 需要 注册 
的 网 站 上 或 当 交易 过 程 中 使 用 亲情 卡 的 时 候 。 客 户 表 可 能 含有 不 同 的 令 人 感 兴趣 的 字段 ， 其 
中 最 有 吸引 力 的 部 分 是 ID 本 身 ， 因 为 这 能 把 交易 和 时 间 结 合 起 来 。 

随时 间 跟 踪 客户 使 得 确定 一 些 情况 成 为 可 能 ， 例 如 ， 哪 个 食品 购买 者 是 “ 烘 烤 食品 自 
助 ”者 一 一 这 是 面粉 制造 商 和 出 售 预先 包装 好 的 混合 蛋 烁 粉 制造 商都 非常 感 兴趣 的 。 可 以 通 
过 客户 购买 面粉 、 发 酵 粉 和 类 似 配 料 的 频率 ， 这 种 购买 占 客户 总 消费 的 比例 ， 以 及 对 预先 包 
装 的 混合 物 和 即食 甜点 缺乏 兴趣 等 信息 来 识别 这 些 客户 。 当 然 ， 这 样 的 配料 可 能 是 在 不 同时 
闻 、 以 不 同 数 量 购买 的 ， 需 要 配合 时 间 把 多 种 交易 结合 起 来 。 

购物 篮 数 据 的 所 有 三 个 层次 都 是 重要 的 。 例 如 ， 要 了 解 订 单 ， 有 一 些 基 本 的 度量 : 

“每 位 客户 的 平均 订单 数 是 多 人 少 ? 

“ 每 一 订单 的 特定 项 的 平均 数目 是 多 少 ? 

。 每 一 订单 平均 有 多 少 项 ? 

“对 于 给 定 的 产品 ， 曾 经 购买 过 该 产品 的 客户 比例 是 多 少 ? 

“对 于 给 定 的 产品 ， 包 含 该 项 的 每 个 客户 的 平均 订单 数 是 多 少 ? 

“对 于 给 定 的 产品 ， 当 该 产品 被 购买 时 一 个 订单 中 的 平均 购买 量 是 多 少 ? 

这 些 度量 给 出 了 对 该 商务 的 广泛 理解 。 在 一 些 情况 下 ， 很 少 有 重复 的 客户 ， 因 此 每 位 客 
户 的 订单 比例 接近 1， 这 表明 了 一 个 商业 机 会 ， 即 增加 每 位 客户 的 购买 量 。 或 者 ， 每 个 订单 
产品 的 数量 可 能 接近 1， 表 明 在 下 订单 的 过 程 中 进行 交叉 销售 的 机 会 。 

把 这 些 度量 相互 比较 可 能 是 有 用 的 。 我 们 已 经 发 现 : 订单 数 常常 是 划分 客户 的 有 用 方 
式 ， 好 的 客户 明显 比 不 好 的 客户 订购 频率 高 。 图 9-3 试图 对 于 购买 一 项 以 上 产品 的 客户 通过 
客户 关系 的 深度 〈 订 单数 目 ) 观察 客户 关系 的 宽度 〈 曾 购买 的 特定 项 的 数目 )。 这 一 数据 来 
源 于 一 家 小 的 专卖 店 。 最 大 的 泡 泡 显示 购买 两 种 产品 的 许多 客户 是 在 同一 时 间 购 买 的 。 同 样 
有 一 个 令 人 惊讶 的 大 泡 泡 ， 显 示 相 当 数 量 的 客户 用 两 个 订单 购买 同样 的 产品 。 较 好 的 客 
户 一 一 至 少 是 那些 多 次 回头 的 客户 一 一 倾向 于 购买 更 多 样 性 的 产品 。 然 而 ， 他 们 中 有 一 些 是 
回来 购买 他 们 第 一 次 买 到 的 同样 东西 。 零 售 商 如 何 鼓 励 客户 回头 买 更 多 的 不 同 产品 ?” 购物 篮 分 
析 不 能 回答 这 个 问题 ， 但 它 至 少 能 启发 我 们 提出 这 个 问题 ， 并 可 能 提供 或 许 有 所 帮助 的 线索 。 


9.1.2 订单 特征 


客户 购买 行为 有 另外 的 重要 特征 。 例 如 ， 平 均 订单 大 小 随时 间 和 地 域 不 同 而 不 同一 一 追 
踪 这 些 信息 有 助 于 了 解 在 商业 环境 中 的 变化 。 这 类 信息 在 报告 系统 中 常常 是 可 用 的 ， 因 为 它 
很 容易 汇总 。 


ee 生生 
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在 所 有 订单 中 单一 产品 数目 
-mohaumowomoe 


订单 数 
图 9-3 这 一 泡 泡 图 通过 关系 的 深度 显示 了 客户 关系 的 宽度 


然而 ， 有 一 些 信息 可 能 需要 从 交易 层面 的 数据 中 收集 。 图 9-4 对 另 一 个 零售 商 按 订 单 大 
小 和 支付 信用 卡 一 一 维 萨 信用 卡 、 万 事 达 信用 卡 或 美国 万 国宝 通 银行 卡 一 一 划分 不 同 的 交 
易 。 首 先 注意 到 的 是 不 管 使 用 哪 种 信用 卡 ， 订 单 越 大 ， 平均 购 买 额 越 大 ， 这 是 可 靠 的 。 同 
样 ， 美 国 万 国宝 通 银行 卡 这 类 信用 卡 的 使 用 一 向 与 较 大 的 订单 相关 联 一 一 这 是 一 个 关于 这 些 
客户 的 重要 发 现 。 

$1.500 
国 万 事 达 信用 卡 

盟 维 萨 信用 卡 

加 购买 项 数 


$1,.250 


S$1.000 


平均 订单 额 
信 
包 


美国 万 国宝 通 银行 
图 9-4 本 图 显示 了 对 于 一 个 特定 零售 商 ， 以 订单 项 数 为 基础 ， 按 信用 卡 消 费 的 平均 金额 


对 于 网 上 购买 和 邮寄 订单 交易 ， 在 销售 点 也 可 能 收集 到 额外 的 信息 : 

。 该 订单 使 用 礼品 包装 吗 ? 

。 该 订单 转向 与 账单 相同 的 地 址 吗 ? 

。 购 买 者 接受 还 是 拒绝 特定 的 交叉 销售 服务 ? 

当然 ， 在 销售 点 收集 信息 和 它 对 于 分 析 可 用 是 两 回 事 。 然 而 ， 礼 品 赠送 和 对 交叉 销售 服 
务 的 响应 对 于 了 解 客户 是 两 件 很 有 用 的 事情 。 用 这 一 信息 发 现 模式 需要 在 第 一 现场 〈 在 呼叫 
中 心 或 通过 联机 界面 ) 收集 信息 ， 然 后 把 它 移 人 数据 挖掘 环境 。 
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9.1.3 项 流行 性 


什么 是 最 流行 的 项 ?” 这 是 一 个 通过 观察 存货 曲线 能 够 回答 的 问题 ， 不 必 使 用 交易 层面 的 
数据 就 能 够 生成 。 然 而 ， 知 道 单个 项 的 销售 仅仅 是 个 起 点 ， 还 有 一 些 相关 的 问题 

*。 在 只 有 一 个 项 的 订单 中 发 现 的 最 善 遍 项 是 什么 ? 

“在 有 多 个 项 的 订单 中 发 现 的 最 普遍 项 是 什么 ? 

。 在 重复 购买 的 客户 中 发 现 的 最 普遍 项 是 什么 ? 

。 特 定 项 的 流行 性 随时 间 如 何 变化 ? 

“。 地域 不 同 ， 一 个 项 的 流行 性 如 何 变化 ? 

前 三 个 问题 特别 值得 关注 ， 因 为 它们 可 能 对 客户 关系 的 成 长 提出 一 些 想法 。 关 联 规则 能 
够 对 这 些 问 题 提 供 答案 ， 特 别 是 当 与 虚拟 项 〈virtual item) 一 起 使 用 以 表示 一 个 客户 的 订单 
大 小 或 订单 数 的 时 候 。 

后 两 个 问题 提出 了 时 间 维 度 和 地 域 维度 ， 这 对 于 购物 篮 分 析 的 应 用 是 非常 重要 的 。 不 同 
的 产品 在 不 同 地 域 有 不 同 的 吸引 力 一 一 这 是 零售 商 非常 熟悉 的 事 。 通 过 引 人 代 表 地 域 和 季节 
的 虚拟 项 ， 使 用 关联 规则 开始 了 解 这 些 方面 也 是 可 能 的 。 

提示 : 时 间 和 地 域 是 购物 篮 数 据 的 最 重要 的 两 个 属性 ， 因 为 它们 常常 指向 在 特定 销 

售 时 间 的 确切 交易 条 件 。 


9.1.4 跟踪 市 场 干预 


正如 在 第 5 章 讨 论 的 ， 观 察 单个 产品 随时 间 的 变化 能 对 该 产品 正在 发 生 的 事情 提供 深入 
了 解 。 把 随时 间 而 变化 的 市 场 于 预 连同 产品 销售 一 起 考虑 ， 如 图 9-5 所 示 ， 则 可 能 看 到 干预 
的 效果 。 该 图 显示 了 一 个 特定 产品 的 销售 曲线 。 在 干预 之 前 ， 销 售 悬 停 在 每 周 50 个 单位 ， 
而 干预 之 后 ， 销 售 峰 值 大 约 是 该 数量 的 7 或 8 倍 ， 尽 管 在 六 七 周 的 时 间 内 呈 逐 渐 下 滑 之 势 。 
使 用 这 种 图 ， 有 可 能 测量 该 市 场 营销 工作 的 响应 情况 。 


450 


下 严正 5， 人 下 世 区 世间 世 下 下 
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图 9-5 把 市 场 干 预 和 产品 销售 显示 在 同一 图 表 中 ， 可 能 看 到 市 场 营销 工作 的 效果 


免费 领取 更 多 资源 V: 3446034937 


200 恤 9 间 


这 种 分 析 不 要 求 观察 单个 购物 篮 
实 需要 知道 市 场 营销 干预 (marketing intervention) 在 何 时 发 生 的 一 一 有 时 要 得 到 这 样 一 个 
日 程 表 也 是 巨大 的 挑战 。 这 种 图 表 能 够 回答 的 一 个 问题 是 干预 的 效果 ， 但 要 回答 这 个 问题 ， 
则 必须 确定 额外 的 销售 是 逐渐 增长 的 ， 还 是 由 那些 在 晚 些 时 候 无 论 如 何 都 将 购买 该 产品 的 客 
户 做 出 的 。 

购物 复数 据 能 够 回答 这 一 问题 ， 除 了 在 干预 之 后 观察 销售 量 之 外 ， 也 可 以 观察 包含 干预 
项 的 篮子 的 数目 。 如 果 客 户 数目 不 是 在 增加 ， 就 有 证 据说 明 现 有 的 客户 只 不 过 是 在 该 项 上 低 
价 围 积 。 

一 个 相关 的 问题 是 ， 打 折 是 否 导致 了 其 他 产品 的 额外 销售 。 通 过 发 现 促销 阶段 促销 产品 
的 组 合 ， 关 联 规则 能 帮助 回答 这 个 问题 。 类 似 地 ， 我 们 可 能 想 要 知道 在 干预 之 后 订单 的 平均 
额 是 增加 了 还 是 减少 了 ， 这 些 都 是 这 类 问题 的 示例 ， 其 中 更 详细 的 交易 层 数据 很 重要 。 


9.1.5 按 用 途 聚 类 产品 


也 许 最 让 人 关注 的 一 个 问题 是 什么 样 的 产品 组 合 经 常 一 起 出 现 。 这 种 产品 组 合 对 于 向 客 
户 做 出 推荐 是 非常 有 用 的 一 一 那些 购买 了 某 些 产品 的 客户 可 能 对 其 余 的 部 分 产品 感 兴趣 (第 8 
章 更 详细 地 讨论 了 产品 推荐 )。 在 单个 产品 分 层 上 ， 关 联 规 则 在 这 一 方面 提供 了 一 些 答案 。 尤 
其 是 ， 这 一 数据 挖掘 技术 可 用 于 确定 娜 种 或 者 哪些 产品 可 以 建议 与 其 他 特定 产品 同时 购买 。 

有 时 我 们 想 要 发 现 那些 比 关联 规则 提供 的 聚 类 更 大 的 聚 类 ， 关 联 规 则 中 的 任何 规则 提供 
的 涌 类 只 包括 少数 一 些 项 。 在 第 11 章 中 描述 的 标准 聚 类 技术 也 可 用 于 购物 复数 据 。 在 这 种 
情况 下 ， 数 据 需要 转轴 ， 如 图 9-6 所 示 ， 以 便 每 行 代表 一 个 订单 或 顾客 ， 对 购买 的 每 一 件 产 
品 有 标记 或 计数 器 。 可 惜 的 是 ， 常 常 有 几 和 于 种 不 同 的 产品 ， 为 减少 列 的 数目 ， 这 种 转换 可 以 
在 分 类 层面 上 进行 ， 而 不 是 在 单个 产品 层面 。 
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图 9-6 ”转轴 购物 篮 数 据 使 得 运行 聚 类 算法 有 可 能 发 现 特别 的 产品 群 组 


通常 有 大 量 关 于 产品 的 可 用 信息 ， 除 产品 分 层 以 外 ， 还 包括 服装 颜色 、 食 品 是 否 是 低 卡 
路 里 的 、 海 报 是 否 有 背景 等 。 这 种 描述 提供 了 很 多 信息 ， 能 够 引出 特别 有 用 的 问题 : 
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*。 节食 产品 趋 于 一 同 销售 吗 ”? 

。 客 户 在 同一 时 间 购 买 同色 系 的 服装 吗 ? 

。 购买 海报 上 产品 的 客户 也 买 其 他 产品 吗 ? 

有 能 力 回 答 这 样 的 问题 常常 比试 图 聚 类 产品 更 有 用 ， 因 为 这 种 指导 性 信息 常常 直接 导致 
市 场 营 销 行动 。 


9.2 关联 规则 


对 关联 规则 的 一 个 要 求 是 ， 结 果 要 有 透明 度 和 可 用 性 ， 这 些 结果 是 以 产品 群 组 规则 的 形 
式 表 示 的 。 关 联 规则 要 求 数据 挖掘 者 有 较 好 的 直觉 ， 因 为 它 表 述 了 现实 的 产品 和 服务 是 如 何 
组 合 到 一 起 的 。 这 样 的 规则 是 很 清楚 的 :“ 如 果 一 位 客户 购买 了 三 方 通话 ， 则 那 位 客户 也 将 
购买 呼叫 等 待 ”。 甚 至 更 好 一 些 ， 它 可 能 建议 一 个 特殊 的 做 法 ， 诸 如 把 呼叫 等 待 和 三 方 通话 
捆绑 进 单个 服务 包 。 

关联 规则 容易 理解 ， 但 它们 并 不 总 是 有 用 的 。 下 列 三 个 规则 是 从 真实 数据 中 生成 的 真实 
规则 的 例子 : 

“ 购买 芭比 娃娃 的 沃尔玛 〈(Wal-Mart) 客户 有 60% 的 可 能 也 购买 三 种 类 型 的 糖 块 之 一 。 

“ 签 购 维修 保养 协议 的 客户 很 可 能 购买 大 型 家 用 电器 。 

。 当 一 个 新 的 五 金 店 开张 时 ， 最 常 卖 的 项 之 一 是 抽水 马桶 清洁 器 。 

后 两 个 例子 是 我 们 从 数据 中 看 到 的 真实 例子 ， 第 一 个 是 在 1997 年 9 月 8 日 的 《财富 ( 福 
布 斯 )》 和 杂志 上 引用 的 一 个 例子 。 这 三 个 例子 说 明了 关联 规则 产生 的 规则 的 三 种 普遍 类 型 : 可 
操作 的 、 平 凡 的 和 费解 的 。 除 了 这 类 规则 之 外 ， 后 面 “著名 的 规则 ”部 分 谈 到 了 另 一 种 分 类 。 


9.2.1 可 操作 的 规则 


有 用 的 规则 包含 高 质量 、 可 操作 的 信息 。 一 旦 模式 被 发 现 ， 它 常常 不 难 证 明 ， 而 如 果 是 
谎言 的 话 ， 可 以 让 我 们 有 更 深 的 了 解 并 采取 相应 行动 。 芭 比 娃娃 喜欢 巧克力 块 胜 过 其 他 形式 
的 食物 不 像 是 谎言 。 设 想 一 个 家 庭 出 来 购物 ,为 的 是 为 小 苏 昔 的 朋友 埃 米 莉 买 一 个 生日 礼 
物 ， 芭 比 娃娃 是 理想 的 礼物 。 在 收银 台 ， 小 雅 各 布 开始 册 了 。 他 也 想 要 一 点 东西 一 一 块 糖 正 
合 需要 。 也 许 埃 米 莉 有 个 弟弟 ， 不 能 不 给 他 赠送 一 个 小 礼物 。 糖 块 也 许 是 给 妈妈 买 的 ， 因 为 
购买 芭比 娃娃 是 一 个 累 人 的 活 ， 因 此 妈妈 需要 补充 一 些 能 量 。 这 些 情 景 都 说 明 糖 块 是 附加 于 
芭比 娃娃 之 上 的 刺激 购物 。 

沃尔玛 是 否 能 够 利用 这 一 信息 还 不 清楚 ， 但 这 一 规则 可 能 暗示 更 有 效 的 产品 布局 ， 诸 如 
确保 客户 从 芭比 娃娃 购物 区 回来 时 必须 走 过 糖 果 通 道 。 它 也 可 能 暗示 产品 组 合 销售 以 及 将 糖 
块 和 玩偶 组 合 在 一 起 的 促销 活动 ; 也 可 能 暗示 特别 的 产品 广告 方式 。 因 为 该 规则 容易 理解 ， 
所 以 它 暗示 出 似是而非 的 原因 和 可 能 的 干预 方式 。 


9.2.2 平凡 的 规则 


平凡 的 结果 早已 被 熟悉 商业 的 任何 一 个 人 所 知晓 。 第 二 个 例子 (“ 签 购 维修 保养 协议 的 
客户 很 可 能 购买 大 型 家 用 电器 ”" ) 是 一 个 平凡 规则 (trivial rule) 的 例子 。 实 际 上 ， 客 户 通常 
会 同时 购买 维修 保养 协议 和 大 型 家 用 电器 。 他 们 为 什么 还 要 另外 购买 维修 保养 协议 ? 这 二 者 
是 在 一 起 做 广告 ， 并 且 很 少 独立 出 售 〈 尽 管 当 独立 出 售 时 ， 客 户 通常 是 购买 大 型 家 用 电器 而 
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不 带 协议 ， 而 不 是 购买 协议 却 不 带 家 用 电器 )。 但 这 一 规则 是 在 分 析 Sears 的 数 十 万 计 的 销 
售 点 交易 之 后 发 现 的 ， 尽 管 正 确 并 在 数据 中 得 到 很 好 的 支持 ， 但 仍然 是 无 用 的 。 类 似 的 结果 
很 多 : 买 木 钉 的 人 们 也 买 钉子 ， 买 油漆 的 客户 也 买 油漆 刷 ， 油 和 滤 油 器 通常 一 起 购买 ， 牛 肉 
饼 和 汉堡 包 、 本 炭 和 液体 点 火器 ， 等 等 。 

微妙 的 问题 可 能 落 和 人 相同 的 范畴 。 例 如 ， 在 本 地 电话 服务 上 购买 三 方 通话 的 人 们 几乎 总 
是 购买 呼叫 等 待 ， 这 类 看 上 去 有 趣 的 结果 是 过 去 交易 计划 和 产品 捆绑 的 结果 。 在 电话 服务 选 
项 中 ， 三 方 通话 通常 与 呼叫 等 待 打 绑 在 一 起 ， 因 此 难以 分 别 订 购 。 在 这 一 情况 下 ， 该 分 析 不 
产生 可 操作 的 结果 ， 商 产生 早已 遵照 行事 的 结果 。 购 物 篮 分 析 特 别 容易 再 现 前 一 营销 活动 的 
成 功 ， 这 对 于 任何 数据 挖掘 技术 都 是 危险 的 ， 产 生 这 一 现象 的 原因 是 由 于 它 依赖 于 未 汇总 销 
售 点 数据 一 一 这 恰恰 是 用 于 定义 活动 成 功 的 数据 。 从 购物 篮 分 析 中 得 到 的 结果 也 许 只 不 过 是 
测定 前 一 市 场 营销 活动 的 成 功 。 

平凡 规则 确实 有 一 个 用 处 ， 尽 管 它 不 是 直接 的 数据 挖掘 应 用 。 当 一 个 规则 应 当 在 该 时 间 
100% 出 现 ， 然 而 它 却 没 有 这 样 做 ， 这 种 情形 可 以 提供 关于 数据 质量 的 许多 信息 。 换 句 话说 ， 
不 遵循 平凡 规则 的 例外 情况 指出 了 商业 运作 、 数 据 收集 和 处 理 等 可 能 需要 进一步 改进 的 方面 。 


9.2.3 费解 的 规则 


费解 的 规则 〈inexplicable rule) 似乎 没 法 解释 ， 并 且 不 给 出 行动 过 程 。 第 三 种 模式 
(“ 当 一 个 新 的 五 金 店 开张 时 ， 最 常 卖 的 项 之 一 是 抽水 马桶 清洁 器 ”) 是 令 人 迷惑 的 ， 它 用 一 
个 新 的 事实 吸引 我 们 ， 但 提供 了 一 些 并 不 能 深入 了 解 消费 者 行为 或 商品 或 者 瞳 示 更 多 对 策 的 
信息 。 在 这 一 案例 中 ， 一 家 大 型 五 金 公司 针对 新 店 开张 发 现 了 这 一 模式 ， 但 是 没 能 找 出 如 何 
从 中 受益 。 在 商店 开张 期 间 许多 项 在 打折 销售 ， 但 是 抽水 马桶 清洁 器 的 销量 很 突出 。 更 多 的 
调查 可 能 给 出 一 些 解 释 : 抽水 马桶 清洁 器 比 其 他 产品 的 折扣 更 低 吗 ? 它们 是 否 在 商店 开张 时 
被 放置 在 人 流 密集 的 区 域 但 在 其 他 时 间 不 易 看 见 ” 从 其 他 连锁 商店 的 情况 看 ， 这 个 结果 反常 
吗 ? 在 其 他 时 间 它 们 是 难以 发 现 的 吗 ? 无 论 什 么 原因 ， 只 用 购物 篮 数据 作 进一步 分 析 能 够 给 
出 一 个 可 信 的 解释 ， 这 一 点 值得 怀疑 。 

警告: 当 应 用 购物 篮 分 析 时 ， 许 多 结果 常常 是 平凡 的 或 费解 的 。 平 凡 规 则 再 现 商业 

常识 ， 浪 费 了 利用 高 级 分 析 技术 的 努力 。 费 解 的 规则 是 数据 中 的 偶然 事件 ， 是 不 可 

操作 的 。 


著名 的 规则 : 了 啤酒 和 尿布 

或 许 谈 得 最 多 的 曾经 “发 现 ” 的 关联 规则 是 啤酒 和 尿布 之 间 的 关联 。 这 是 在 20 世纪 80 
年 代 末 或 90 年 代 初 期 很 有 名 的 故事 ， 那 时 计算 机 刚刚 变 得 足够 有 能 力 分 析 大 量 数据 。 故 事 
发 生 在 美国 中 西部 的 某 地 ， 一 个 零售 商 在 分 析 销 售 点 数据 以 发 现 有 益 的 模式 。 

你 瞧 ! 潜藏 在 所 有 交易 数据 中 的 是 啤酒 和 尿布 一 起 销售 这 一 事实 ， 这 立即 使 得 有 营销 头 
脑 的 人 兴奋 起 来 ， 他 们 想 断 定 到 底 发 生 了 什么 。 头 脑 中 一 闪 念 可 能 会 做 出 如 下 解释 : 喝 啤 酒 
的 人 不 想 中 断 他 们 欣赏 电视 体育 运动 节目 ， 因 此 他 们 买 了 尿布 以 减少 到 铀 洗 室 的 次 数 。 不 ， 
情况 并 不 是 这 样 的 。 更 可 能 的 情况 是 ， 有 小 孩子 的 家 庭 准备 周末 休假 ， 尿 布 是 给 孩子 的 ， 啤 
酒 是 给 爸爸 的 。 爸 爸 大 概 知道 ， 在 他 喝 完 几 瓶 啤酒 之 后 ， 妈 妈 将 给 孩子 换 尿 布 。 

这 是 个 有 说 服 力 的 故事 。 撒 开 分 析 论 ， 零 售 商 能 够 用 这 一 信息 做 什么 呢 ? 有 两 种 相左 的 观 
点 : 一 种 说 把 啤酒 和 尿布 紧 靠 着 放 在 一 起 ， 于 是 当 顾 客 购买 了 其 中 一 个 时 ， 会 记得 去 买 另 一 个 。 
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另 一 种 说 把 它们 放置 得 尽 可 能 远 ， 于 是 客户 必须 走 过 尽 可 能 多 的 货架 ， 从 而 有 机 会 购买 更 多 的 
项 。 商 店 还 能 把 高 利润 的 隶 布 和 啤酒 放 得 近 些 ， 尽 管 把 婴儿 产品 和 酒 混 合 摆 放 大 概 是 不 适宜 的 。 

这 个 故事 是 如 此 有 影响 力 ， 作 者 注意 到 ， 至 少 四 个 公司 在 使 用 这 个 假说 一 了 PBM、Tandem 
(现在 是 HP 的 一 部 分 )、Oracle 和 NCR Teradata。 这 个 真实 的 故事 是 1998 年 4 月 6 日 在 
《财富 (福布斯 )》 杂 志 的 一 篇 文章 中 披露 的 ， 名 为 “啤酒 -尿布 综合 症 ”。 

所 披露 的 故事 至 今 依 然 是 一 种 启示 。 显 然 ， 啤 酒 和 尿布 的 销售 基于 存货 清单 被 认为 是 相 
关 的 《至 少 在 一 些 商 店 )。 当 做 一 个 示范 项 时 ， 销 售 经 理 建 议 演 示 一 些 值得 关注 的 事 ， 就 像 
“啤酒 和 尿布 ”被 一 起 卖 出 。 在 这 个 小 提示 下 ， 分 析 家 能 够 在 数据 中 发 现 证 据 。 实 际 上 ， 该 
故事 的 寓意 不 是 关于 关联 规则 的 力量 ， 而 在 于 假设 测试 (hypothesis testing) 可 能 是 很 有 说 
服 力 和 可 操作 的 。 


9.3 一 个 关联 规则 有 多 好 
关联 规则 首先 分 析 包 含 一 种 或 者 多 种 产品 或 者 服务 的 交易 以 及 关于 交易 的 基本 信息 。 为 


了 便于 分 析 ， 称 这 些 产 品 或 者 服务 为 项 〈item)。 表 9-1 杂货 店 销售 点 交易 
表 9-!1 展示 了 一 家 杂货 店 包含 五 种 产品 的 五 顾客 项 
项 交易 。 橙汁 、 汽 水 


这 些 交 易 已 经 被 简化 为 只 包含 购买 项 ， 如 


1 
2 牛奶 、 橙 着、 扩 窗 器 
何 利用 诸如 日 期 和 时 间 信 息 ， 以 及 客户 是 用 现 3 橙汁 、 清 洁 齐 
金 还 是 信用 卡 支付 的 问题 将 在 本 章 后 面 介 绍 。 4 橙汁 、 清 洁 剂 、 汽 水 
每 项 交易 给 出 了 哪些 产品 会 与 其 他 哪些 5 拉 窗 器 、 汽 水 


产品 一 起 购买 的 信息 。 表 9-2 所 示 的 同 现 表 

格 〈co-occurrence table) 显示 了 这 一 点 ， 它 展示 了 任何 一 对 产品 被 一 起 购买 的 次 数 。 例 如 ， 
“汽水 ” 行 和 “ 栖 汁 ” 列 交界 处 的 值 是 2， 这 说 明 2 项 交易 包含 汽水 和 橙汁 。 这 件 事情 可 以 
很 容易 地 由 原来 的 交易 数据 验证 ， 其 中 客户 1 和 4 购买 了 这 两 项 产品 。 对 角 线 上 的 数值 (如 
橙 计 行 和 橙 计 列 交界 处 的 数值 ) 代表 包含 该 项 的 交易 数目 。 


表 9-2 产品 的 同 现 胡 格 


橙 汗 氛 窗 器 牛奶 汽 水 清 洁 剂 
橙汁 4 1 1 2 
控 窗 器 I 2 1 1 0 
牛奶 1 1 1 0 0 
汽水 2 1 0 3 3 
清洁 剂 1 0 0 1 2 


这 一 简单 的 同 现 表 格 已 经 突出 了 一 些 简 单 的 模式 : 

“ 栖 汁 和 汽水 更 可 能 比 任何 其 他 两 项 一 起 被 购买 ; 

“清洁 剂 从 不 与 氛 窗 器 或 牛奶 一 起 被 购买 ; 

。 牛奶 从 不 与 汽水 或 清洁 剂 一 起 被 购买 。 

这 些 观 察 资料 都 是 关联 规则 的 例子 ， 并 且 可 能 瞳 示 一 个 正式 的 规则 ， 如 : “如 果 客 户 购 
买 汽水 ， 那 么 该 客户 也 购买 橙汁 。” 眼下， 让 我 们 推迟 讨论 如 何 自动 发 现 该 规则 ， 而 是 问 另 
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一 个 问题 : 这 条 规则 有 多 好 ? 

在 该 数据 中 ， 五 个 交易 中 有 两 个 不 仅 包括 汽水 而 且 包 括 橙汁 。 这 两 个 交易 支持 了 该 规 
则 ， 对 该 规则 的 支持 度 是 40% 。 既 然 两 个 包含 汽水 的 交易 也 都 包含 橙汁 ,那么 规则 就 有 一 
个 高 的 置信 度 。 事 实 上 ， 三 个 包含 汽水 的 交易 中 有 两 个 包含 楼 汁 ， 于 是 规则 “如 果 汽水 ， 则 . 
橙汁 ”具有 67% 的 置信 度 。 反 过 来 ， 规 则 “如 果 橙 汁 ， 则 汽水 ”具有 低 的 置信 度 。 在 四 个 
有 橙汁 的 交易 中 ， 只 有 两 个 有 汽水 ,那么 它 的 置信 度 只 是 50% 。 更 正式 地 可 以 说 ， 置 信 度 
是 支持 该 规则 的 交易 数目 与 使 规则 的 条 件 部 分 成 立 的 交易 数目 的 比率 。 另 一 种 表述 方式 是 ， 
置信 度 是 具有 全 部 项 的 交易 数目 对 只 满足 “如 果 ” 项 的 交易 数目 的 比率 。 

另 一 个 问题 是 该 规则 与 偶然 性 相 比 好 多 少 。 回 答 这 个 问题 的 一 种 方式 是 计算 提升 度 〈 也 
称 为 改善 ) ， 它 告诉 我 们 在 预测 结果 方面 ， 规 则 比 只 是 首先 假设 该 结果 会 好 多 少 。 提 升 度 是 
在 应 用 左边 条 件 之 后 目标 密度 与 总 体 中 目标 密度 的 比率 。 表 述 这 一 点 的 另 一 种 方式 是 ， 提 升 
度 是 支持 整个 规则 的 记录 数 与 期 望 数 的 比率 ， 假 定 在 产品 之 间 没 有 关系 〈 确 切 的 公式 在 本 章 
稍 后 给 出 )。 一 个 类 似 的 度量 ， 超 额 量 ， 是 整个 规则 支持 的 记录 数 减 期 望 值 之 后 的 差 ， 因 为 
超额 量 是 用 与 原始 销售 相同 的 单位 计量 的 ， 有 时 更 容易 使 用 。 

图 9-7 提供 了 一 个 提升 度 、 置 信 度 和 支持 度 的 示例 ， 是 由 Blue Martini 公司 提供 的 ， 这 
是 一 家 专营 零售 商工 具 的 公司 。 他 们 的 软件 系统 包括 了 一 套 包含 关 联 规则 的 分 析 工具 。 这 一 
特定 的 例子 显示 ， 一 种 特定 的 外 套 极 可 能 与 一 种 礼券 一 起 购买 ， 这 是 一 条 能 够 用 于 改进 礼券 
和 外 套 二 者 售 卖 关系 的 沟通 信息 。 


331 14187 
3002 7]571 
了 106 了 什 47 
了 6 和 72727 


303 和 9 于 3 Koteqby 3 AND Getawgy 4 TS 


图 9-7 Blue Martini 提供 了 显示 关联 规则 的 支持 度 、 


面 

在 同 现 表 格 之 后 的 想法 是 ， 把 组 合 扩展 到 任何 数目 的 项 ， 而 不 只 是 针对 成 对 的 项 。 对 于 
三 种 项 的 组 合 ， 可 以 想象 成 每 个 面 分 成 五 个 不 同 部 分 的 一 个 立方 体 ， 如 图 9-8 所 示 。 即 使 数 
据 中 仅仅 有 五 个 项 ， 也 已 经 有 125 个 不 同 的 子 立 方 体 需要 去 填充 。 通 过 考虑 立方 体 中 的 对 称 
性 ， 这 能 降低 一 点 〈 除 以 一 个 为 6 的 因子 )， 但 由 三 个 项 构成 的 群 组 ， 其 子 立方 体 数目 是 不 同 


免费 领取 更 多 资源 V: 3446034937 


购 入 代 分 押 调 光 瑟 规 出 205 


项 数目 的 三 次 寡 。 一 般 而 言 ， 具 有 7 个 项 的 组 合 数 正 比 于 项 数目 的 ”次 震 一 一 一 个 很 快 会 变 
得 非常 巨大 的 数字 ， 并 且 产 生 同 现 表格 需要 对 每 一 种 组 合 进 行 处 理 。 


橙 眷 擦 窗 器 牛奶 ” 汽 \ 水 清洁 剂 


图 9.8 一 个 三 维 同 现 表格 能 够 被 可 视 化 为 一 个 立方 体 
9.4 建立 关联 规则 
发 现 关联 规则 的 基本 过 程 如 图 9-9 所 示 。 在 创建 关联 规则 时 有 三 点 要 重点 关注 : 


CD 首先 确定 恰当 的 项 集 和 恰当 


. 电 

的 层次 。 例 如 ， 把 比萨 饼 作 风 ”see 
为 一 个 项 ， 还 是 把 比萨 配料 轰 6 上 9e@ 
(topping) 作为 项 ? ss 4 8e 


接 下 来 ， 计 算 项 及 其 感 兴趣 组 合 的 
概率 和 联合 概率 ， 可 能 使 用 支持 度 
或 价值 的 阔 值 来 缩小 搜索 范围 。 


最 后 ， 分 析 概 率 来 确定 恰当 的 规则 。 


如 果 有 蘑菇 那么 就 会 有 意大利 痘 香肠 。 
号 一 一 - @ 


图 9-9 发 现 关 联 规则 的 基本 步骤 
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“选择 恰当 的 项 集 。 

。 通 过 判读 在 同 现 和 矩阵 中 的 计数 产生 规则 。 

“。 克服 数 千 个 或 数 万 个 项 带 来 的 实际 局 限 。 

接 下 来 的 三 个 小 节 将 更 详尽 地 深入 研究 这 些 要 关注 的 问题 。 


9.4.1 选择 恰当 的 项 集 


用 于 发 现 关 联 规则 的 数据 通常 是 在 销售 点 捕 提 的 详细 交易 数据 。 收 集 和 使 用 这 些 数据 是 
应 用 购物 篮 分 析 的 关键 部 分 ， 很 大 程度 上 依赖 于 所 选择 的 用 于 分 析 的 项 。 由 什么 构成 特定 的 
项 取决 于 商业 需要 : 在 一 个 食品 店内 ， 货 架 上 有 数 以 万 计 的 产品 ,冷冻 的 比萨 饼 可 能 视 为 一 
个 分 析 目 标 项 一 一 而 不 去 管 它 的 比萨 配料 〈 额 外 的 干酪、 意大利 辣 香 肠 或 世 茵 )、 它 的 外 观 
( 极 厚 、 全 麦 色 或 白色 ) 或 者 大 小 。 于 是 ， 购 买 大 的 全 万 素食 比萨 饼 和 购买 单 份 加 干酪 的 意 
大 利 若 香肠 比萨 饼 包 含 相同 的 “冷冻 比萨 饼 ” 项 。 这 种 交易 的 物品 在 汇总 层次 上 看 可 能 如 表 
9-3 所 示 。 


表 9-3 有 更 多 汇总 项 的 交易 


顾 客 比萨 饼 牛奶 糖 华 果 咖啡 
1 ~/ 
2 志 可 
3 V/ V/ V/ 
4 M/ V 
5 V/ V/ V/ V/ 


另 一 方面 ， 冷 冻 食 品 经 营 店 或 比萨 饼 连锁 店 也 许 对 订购 的 比萨 配料 的 特定 组 合 很 感 兴 
趣 。 他 们 可 能 把 比萨 饼 订单 分 解 为 不 同 的 组 成 部 分 ， 如 表 9-4 所 示 。 
表 9-4 具有 更 详尽 项 的 交易 


顾 客 额外 的 干酪 洋 匣 胡椒 粉 蔬 药 橄榄 油 
1 VV/ 、/ / 
2 </ 

3 V/ V/ V/ 
4 V/ VV/ 
5 w/ V/ V/ 、/ 


后 来 ， 食 品 店 也 许 变 得 对 其 交易 中 更 详细 的 情况 感 兴趣 ， 于 是 仅 有 “冷冻 比萨 饼 ” 项 就 
不 够 了 。 或 者 ， 比 萨 饼 店 可 能 拓宽 了 他 们 的 菜谱 选择 ， 并 变 得 对 所 有 不 同 的 比萨 配料 不 太 感 
兴趣 ， 所 以 感 兴趣 的 项 可 能 随时 间 而 改变 。 如 果 不 同 层次 的 细节 被 删除 ， 在 试图 使 用 历史 数 
据 时 这 可 能 会 造成 问题 。 

选择 恰当 层次 的 细节 是 分 析 的 关键 。 如 果 食 品 店 的 交易 数据 追踪 冷冻 比萨 饼 的 每 一 种 类 


型 、 品 牌 和 大 小 一 一 可 能 考虑 几 打 产 品 一 一 那么 所 有 这 些 项 需要 映射 到 “冷冻 比萨 饼 ” 项 以 
便 分 析 。 
1. 产品 分 层 有 助 于 概 化 项 


在 现实 世界 中 ， 项 有 产品 编码 和 分 成 不 同 层 级 类 别 的 库存 单元 代码 (stock-keeping unit 
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code，SKU) “〈 见 图 9-10)， 这 种 类 别称 为 一 个 产品 分 层 (product hierarchical) 或 分 类 法 
(taxonomy)。 使 用 哪个 产品 分 层 是 恰当 的 ? 这 会 带 来 下 列 问 题 ， 

。 大 份 炸 暮 条 和 小 份 炸 暮 条 是 同一 种 产品 吗 ? 

。 冰 淇 淋 的 品牌 比 口味 更 具 相 关 性 吗 ? 

。 服 装 的 斥 寸 、 格 调 、 款 式 和 设计 师 哪 个 更 重要 ? 

*。 在 大 型 家 用 电器 上 的 节能 选项 预示 客户 的 行为 吗 ? 


部 分 产品 分 类 法 


品牌 、 大 小 和 库存 单位 (SKU) 


图 9-10 产品 分 层 先 概括 然后 逐步 增加 细节 


当 分 析 中 使 用 的 项 数 增加 的 时 候 ， 要 考虑 的 组 合 数 会 非常 快速 地 增长 。 这 要 求 使 用 产品 
分 层 中 较 高 层次 的 项 ， 比 如 使 用 “冷冻 甜点 ”而 不 是 “冰淇淋 "。 另 一 方面 ， 项 越 具 体 ， 结 
果 的 可 操作 性 可 能 越 高 。 例 如 ， 知 道 什 么 与 一 种 特定 品牌 的 冷冻 比萨 饼 一 起 销售 ， 有 助 于 处 
理 与 生产 商 的 关系 。 所 以 ， 一 个 折衷 的 办 法 是 一 开始 使 用 概括 的 项 ， 然 后 反复 生成 规则 ， 把 
目标 放 到 更 具体 的 项 上 。 当 分 析 关 注 的 是 更 具体 的 项 时 ， 可 以 只 使 用 包含 所 需 项 的 交易 
子 集 。 

规则 的 复杂 性 是 指 它 包 含 的 项 数 。 在 交易 中 的 项 数 越 多 ， 要 产生 给 定 复杂 性 的 规则 所 花 
费 的 时 间 越 长 。 因 此 ， 预 期 的 规则 复杂 性 也 决定 了 项 应 当 多 人 么 具体 或 概括 。 在 某 些 情 况 下 ， 
客户 并 不 做 出 大 宗 购 买 ， 例 如 ， 在 便利 店 或 通过 某 些 目录 ， 客 户 每 次 只 购买 相对 很 少 的 几 
项 ， 因 此 寻找 包含 四 项 或 更 多 项 的 规则 可 能 只 能 用 于 很 少 的 交易 ， 并 将 会 是 一 项 无 用 的 工 
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作 。 在 另外 一 些 情况 下 ， 例 如 在 超市 中 ， 平 均 交 易 很 大 ， 因 此 更 复杂 的 规则 是 有 用 的 。 

上 移 产 品 分 层 会 减少 项 数 ， 几 十 个 或 几 百 个 项 可 以 被 减少 至 单个 概 化 项 ， 常 常 对 应 于 单 
个 部 门 或 产品 系列 。 人 例如， 一品 脱 Ben & Jerry 公司 的 Cherry Garcia 这 个 项 可 以 概 化 为 “ 亲 
淇 淋 ” 或 “冷冻 食品 ”,“ 橙 计 ” 可 以 概 化 为 “水 果汁 " ， 等 等 。 经 常 ， 分 层 的 适当 层次 会 以 
对 应 于 具有 系列 产品 经 理 人 的 一 个 部 门 而 结束 ， 因 此 使 用 分 类 有 发 现 部 门 间 关系 的 实际 作 
用 。 概 化 项 也 帮助 发 现 具有 足够 支持 度 的 规则 。 分 类 法 中 高 层次 支持 的 交易 数目 是 低层 次 支 
持 的 交易 数目 的 许多 倍 。 

概 化 某 些 项 并 不 意味 着 所 有 项 需要 上 移 至 相同 的 层次 。 适 当 的 层次 取决 于 项 ， 取 决 于 其 
对 产生 可 操作 结果 的 重要 性 ， 还 取决 于 它 在 数据 中 的 频率 。 例 如 ， 在 一 家 百货 公司 中 ， 高 价 
项 〈 诸 如 家 电 ) 可 以 停留 在 层级 中 的 低层 次 ， 而 低 价 项 〈 诸 如 书 ) 可 以 高 一 些 ， 这 一 杂 化 方 
法 在 观察 单个 产品 时 也 是 有 用 的 。 因 为 数据 中 常常 有 几 千 种 产品 ， 除 了 感 兴 趣 的 一 种 或 多 种 
产品 外 ， 要 概 化 所 有 其 他 的 东西 。 

提示 : 在 数据 中 ， 当 出 现在 交易 中 的 项 数 大 致 相等 时 ， 购 物 篮 分 析 产 生 最 佳 结 果 ， 

这 有 助 于 防止 规则 被 最 常见 的 项 所 支配 。 产 品 分 层 在 这 里 可 以 有 所 帮助 。 把 罕见 的 

项 滚动 到 层级 中 的 较 高 层 ， 于 是 它们 变 得 频率 更 高 。 更 常见 的 项 也 许 根本 不 必 滚 动 。 

2. 虚拟 项 胜 过 产品 分 层 

虚拟 项 的 目的 是 使 该 分 析 有 能 力 利 用 超出 产品 分 层 的 信息 。 虚 拟 项 并 不 出 现在 原始 项 的 
产品 分 层 中 ， 它 们 跨越 产品 界限 。 虚 拟 项 的 例子 可 以 是 设计 师 标 签 ， 如 服饰 部 门 和 香水 中 的 
Calvin Klein 、 食 品 店 中 的 低 脂 和 无 脂 产 品 ， 以 及 家 用 电器 上 的 节能 选项 。 

虚拟 项 甚至 可 以 包括 关于 交易 的 信息 本 身 ， 诸 如 该 购买 用 的 是 现金 、 信 用 卡 还 是 支票 ， 
该 交易 出 现在 星期 几 或 一 天 中 的 什么 时 间 。 然 而 ， 用 过 多 的 虚拟 项 挤 满 数据 并 不 是 个 好 主 
意 。 只 有 在 支持 度 很 好 、 置 信 度 很 高 的 关联 规则 中 发 现 可 操作 的 信息 ， 而 且 有 一 些 使 用 虚拟 
项 将 如 何 导 致 这 些 信息 的 想法 时 ， 才 可 以 包括 虚拟 项 。 

但 有 一 个 危险 ， 虚 拟 项 能 够 引起 平凡 规则 。 例 如 ， 设 想 有 一 个 虚拟 项 代表 “节食 产品 ”， 
另 一 个 代表 “可 乐 产 品 ” ， 那 么 规则 可 能 如 下 : 

如 果 “ 可 乐 产品 ”加 “节食 产品 ”， 那 么 “节食 可 乐 ” 

换 名 话说， 和 < 可乐 > 在 篮子 中 出 现 加 上 << 节 食 产品 > 在 篮子 中 出 现 的 任何 地 方 ， 那 么 
芭 节 食 可 乐 > 也 出 现 。 每 一 个 有 节食 可 乐 的 篮子 都 满足 这 个 规则 。 尽 管 一 些 篮 子 也 许 有 普通 
可 乐 和 其 他 节食 产品 ， 则 该 规则 将 有 高 的 提升 度 ， 因 为 它 也 满足 “节食 可 乐 ”的 定义 。 当 使 
用 虚拟 项 时 ， 需 要 检查 和 复查 那些 规则 以 确保 没有 出 现 这 样 的 平凡 规则 。 

当 右 侧 不 包括 关联 项 时 ， 一 个 相似 的 但 是 更 微妙 的 危险 就 会 出 现 。 于 是 ， 规 则 : 

如 果 “ 可 乐 产品 ”加 “节食 产品 ”， 那 么 “ 脆 饼 干 ” 
很 可 能 意思 是 ， 

如 果 “ 节 食 可 乐 "”， 那 么 “ 脆 饼 干 ” 

这 种 规则 的 惟一 危险 是 它们 能 够 使 正在 发 生 的 事情 变 得 不 明显 。 

提示 : 当 应 用 购物 篮 分 析 时 ， 有 一 个 为 分 析 而 考虑 的 项 层级 分 类 法 是 很 有 用 的 。 通 

过 仔细 选择 层级 的 恰当 层次 ， 这 些 概 化 项 在 数据 中 应 当 出 现 大 约 相同 的 次 数 ， 从 而 

改善 分 析 的 结果 。 对 于 能 够 深入 了 解 客户 行为 的 具体 生活 方式 的 相关 选择 ， 诸 如 无 

糖 项 和 具体 品牌 ， 可 以 用 虚拟 项 扩充 数据 。 
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3. 数据 质量 

用 于 购物 篮 分 析 的 数据 通常 质量 不 很 高 。 它 是 在 客户 联系 点 直接 收集 的 ， 主 要 用 于 诸如 
库存 控制 的 操作 目的 。 数 据 可 能 有 多 重 格式 、 有 更 正 以 及 不 相 容 的 编码 类 型 ， 等 等 。 对 于 不 
同 编码 值 的 多 种 解释 可 能 被 深 埋 在 程序 代码 中 ， 运 行 于 遗留 系统 中 ， 可 能 很 难 提 取 。 同 一 个 
连锁 店 的 不 同 店铺 有 时 有 稍微 不 同 的 产品 分 层 或 不 同 的 打折 等 处 理 方式 。 

这 里 有 一 个 例子 。 作 者 曾经 对 出 现在 大 型 交易 数据 集中 的 大 约 80 个 部 门 代 码 感 到 很 好 
奇 ， 客 户 使 我 们 确信 有 40 个 部 门 ， 并 且 对 其 中 每 一 个 都 提供 了 好 的 描述 。 通 过 更 仔细 的 检 
查 我 们 发 现 问题 之 所 在 。 一 些 店铺 用 IBM 收银 机 ， 另 一 些 则 用 NCR。 这 两 种 类 型 的 设备 用 
来 表示 部 门 编码 的 方式 不 同一 一 因此 我 们 看 到 在 数据 中 有 许多 无 效 的 编码 。 

当 使 用 任何 种 类 的 数据 进行 数据 挖掘 时 ， 这 类 问题 都 是 有 代表 性 的 。 然 而 ， 它 们 增加 了 
购物 篮 分 析 的 负面 影响 ， 因 为 这 种 分 析 很 大 程度 上 依赖 于 未 汇总 的 销售 点 交易 。 

4. 匿名 与 可 识别 

购物 篮 分 析 被 证 明 对 大 批量 市 场 零售 是 有 用 的 ， 诸 如 超级 市 场 、 便 利 店 、 药 店 、 快 餐 连 
锁 店 ， 在 那里 许多 购买 者 传统 上 用 现金 支付 。 现 金 交 易 是 匿名 的 ， 意 思 是 该 店铺 不 了 解 具体 
客户 ， 因 为 没有 信息 能 识别 交易 中 的 客户 。 关 于 匿名 交易 ， 仅 有 的 信息 是 交易 日 期 和 时 间 、 
店铺 位 置 、 出 纳 员 、 购 买 的 项 、 兑 换 的 任何 优惠 券 和 找 零 的 金额 。 使 用 购物 篮 分 析 ， 即 使 这 
种 有 限 的 数据 也 能 产生 重要 的 和 可 操作 的 结果 。 

渐 增 的 网 站 交易 、 忠 诚 度 计 划 和 购物 俱乐部 的 流行 ， 导 致 了 越 来 越 多 的 可 识别 交易 ， 使 
分 析 师 更 有 可 能 了 解 客户 信息 和 客户 行为 随时 间 变 化 的 情况 。 人 口 统计 学 和 趋势 信息 可 以 用 
于 个 人 和 家 庭 ， 以 进一步 扩充 客户 简 档 ， 这 一 附加 信息 通过 使 用 虚拟 项 可 以 整合 到 关联 规则 
分 析 中 。 


9.4.2 从 所 有 这 些 数据 中 生成 规则 


计算 一 个 给 定 项 的 组 合 在 交易 数据 中 出 现 的 次 数 是 适当 而 有 益 的 ， 但 项 的 一 个 组 合 不 是 
一 条 规则 。 有 时 ， 仅 仅 组 合 自身 是 有 趣 的 ， 比 如 芭比 娃娃 和 糖 块 的 例子 。 但 在 另 一 些 情 况 
下 ， 发 现 一 条 如 下 形式 的 潜在 规则 更 有 意义 : 

如 果 条 件 ， 那 么 结果 。 
注意 这 只 是 简写 。 如 果 该 规则 说 ， 

如 果 芭 比 娃娃 ， 那 么 糖 块 。 
那么 我 们 把 它 读 作 :“ 如 果 一 个 客户 购买 芭比 娃娃 ， 那 么 期 望 这 个 客户 也 会 购买 糖 块 。” 通 常 
的 做 法 是 考虑 那些 在 右 侧 只 有 一 个 项 的 规则 。 


1. 计算 起 信 和 度 表 9-5 三 个 项 及 其 组 合 的 概率 
构建 这 样 的 同 现 表 格 ， 可 以 提供 关于 哪 种 项 组 合 组 全 概率 
在 交易 中 是 最 普遍 的 信息 。 为 便于 说 明 ， 我 们 假定 最 4 45.0% 
普遍 的 组 合 项 有 三 个 : 4A、 刀 和 C。 表 9.5 提供 了 一 Me 
个 例子 ， 显 示 各 种 项 和 不 同 组 合 被 购买 的 概率 。 0 
只 需要 考虑 具有 所 有 三 个 项 并 且 在 结果 中 只 有 4 且 C 20.0% 
一 个 项 的 那些 规则 : 也 且 C 15.0% 
A 且 B 且 C S.0% 


。 如 果 A 且 刀 ,那么 C 
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。 如 果 4 且 C， 那 么 也 

。 如 果 电 上 且 C， 那么 4 

因为 这 三 个 规则 包含 相同 的 项 ， 它 们 在 数据 中 具有 相同 的 支持 度 ，$% 。 它 们 的 置信 度 
水 平 是 多 少 ? 置信 度 是 具有 规则 中 所 有 项 的 交易 数 与 只 有 条 件 中 的 项 的 交易 数 之 比 。 这 三 个 
规则 的 置信 度 如 表 9-6 所 示 。 


表 9-6 ”规则 中 的 置信 度 


规 则 p (条 件 ) pP〈 条 件 和 结果 ) 置信 度 
如 果 4 且 日 那么 C 25% 5% 0.20 
如 果 4 且 C 那么 吾 20% 5% 0.25 
如 果 互 且 C 那 么 4 15% 5% 0.33 


置信 和 度 实 际 表明 了 什么 ? 如 果 规 则 “如 果 昌 且 C 那么 4” 有 0.33 的 置信 度 ， 则 等 价 于 
当 巨 且 C 在 交易 中 出 现时 ， 有 33% 的 可 能 性 4 也 在 其 中 出 现 。 换 句 话说， 三 次 中 可 能 有 一 
次 4 随 中 和 C 出 现 ,另外 两 次 ,， 互 和 C 出 现 , 但 A 没有 出 现 。 最 可 信 的 规则 是 最 佳 规则 ， 
因此 最 佳 规则 是 “如 果 已 且 C 那么 4”。 

2. 计算 提升 度 

如 前 所 述 ， 提 升 度 是 一 个 关于 该 规则 工作 情况 有 多 好 的 很 好 度量 。 它 是 目标 的 密度 〈 使 
用 规则 的 左 侧 ) 对 总 目标 的 密度 的 比率 。 因 此 公式 为 ; 


提升 度 = (P (条 件 和 结果 ) 必 (条 件 )) 必 (结果 ) 
= p〈 条 件 和 结果 ) / (P (条件 ) p (结果 ) ) 


当 提 升 度 大 于 1 时 ， 那 么 得 到 的 规则 能 更 好 地 预测 结果 ， 而 不 是 基于 数据 中 项 的 频繁 程 
度 猜 测 结果 项 是 否 会 出 现 。 当 提升 度 小 于 1 时 ， 该 规则 的 效果 不 如 按 信息 猜测 好 。 表 9.7 显 
示 了 三 个 规则 的 提升 度 和 有 最 佳 提 升 度 的 规则 。 

带 有 三 个 项 的 规则 没有 一 个 显示 出 提升 度 改 善 。 在 该 数据 中 最 佳 规则 实际 上 只 有 两 个 
项 。 在 交易 中 如 果 购 买 了 “4”， 则 购买 “B” 的 可 能 性 要 比 没有 购买 “4A” 高 出 31% 。 这 
种 情形 和 许多 情形 一 样 ， 最 佳 规则 实际 上 比 所 考察 的 其 他 规则 包含 更 少 的 项 。 


表 9-7 ”四 个 规则 的 提升 度 测 量 


规则 支持 度 置信 度 pP《〈 结 果 ) 提升 度 
如 果 4 且 巨 那 么 C 5% 0.20 40% 0.50 
如 果 4 且 C 那么 召 5% 0.25 42.5% 0.59 
如 果 刁 且 C 那么 4 5% 0.33 45% 0.74 
如 果 4 那么 理 25% 0.59 42.5% 1.31 


3. 否定 规则 
当 提 升 度 小 于 工时， 否定 该 规则 会 产生 一 个 好 的 规则 。 如 果 规 则 ; 
如 果 瑟 且 C 那么 A 
县 有 0.33 的 置信 度 ， 那 么 规则 
如 果 巨 且 C 那 么 非 和 
就 有 0.67 的 置信 度 。 由 于 4 出 现在 45% 的 交易 中 ， 它 就 不 出 现在 另外 的 55% 的 交易 中 。 
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应 用 相同 的 提升 度 度量 ， 显 示 这 一 新 规则 的 提升 度 为 1.22 〈0.67m0.55)， 得 到 了 一 个 1.33 
的 提升 度 ， 比 其 他 任何 规则 都 好 。 


9.4.3 克服 实际 局 限 


生成 关联 规则 是 一 个 多 级 过 程 。 通 常 的 算法 是 : 

1) 对 单个 项 生成 同 现 和 矩阵 。 

2) 对 两 个 项 生成 同 现 和 矩阵 ， 使 用 它 来 寻找 有 两 个 项 的 规则 。 

3) 对 三 个 项 生成 同 现 和 矩阵， 使 用 它 来 寻找 有 三 个 项 的 规则 。 

4) 依 此 类 推 。 

例如 ， 在 销售 栖 汁 、 牛 奶 、 清 洁 剂 、 汽 水 和 撩 窗 器 的 杂货 店 ， 第 一 步 对 这 些 项 中 的 每 一 
项 计算 计数 (count)。 在 第 二 步 中 ， 创 建 下 列 计数 ， 

*。 和 牛奶 和 清洁 剂 ， 牛 奶 和 汽水 ， 牛 奶 和 摔 窗 器 

*。 清洁 剂 和 汽水 ， 清 洁 器 和 控 窗 器 

。 汽 水 和 清洁 器 

这 总 共 是 10 对 项 。 第 三 步 考虑 三 个 项 的 所 有 组 合 ， 依 此 类 推 。 当 然 ， 其 中 的 每 一 阶段 
也 许 需 要 一 个 单独 的 步骤 遍历 数据 ， 或 者 也 可 以 通过 同时 考虑 不 同 组 合 的 数目 ， 把 多 个 阶段 
组 合 到 单 次 遍历 中 。 

尽管 在 只 有 五 个 项 时 并 不 明显 ， 但 增加 组 合 中 的 项 数 需要 按 指 数 规律 增加 计算 量 ， 这 会 
导致 运行 时 间 量 指数 增长 一 一 当 考 虑 具有 多 于 三 个 或 四 个 项 的 组 合 时 ， 需 要 等 待 更 长 的 时 
闻 。 解 决 的 办 法 是 修剪 〈pruning)。 修 前 是 减少 每 一 步 考虑 的 项 以 及 项 组 合 数 的 一 种 技术 。 
在 每 个 阶段 ， 该 算法 抛弃 一 定数 目的 不 符合 某 一 姜 值 标准 的 组 合 。 

最 通用 的 修剪 阔 值 被 称 为 最 小 支持 度 修 前 〈minimum support pruning)。 支 持 度 指 的 是 
在 规则 支持 的 数据 库 中 交易 的 数目 。 最 小 支持 度 修剪 需要 有 一 个 规则 支持 最 小 数目 的 交易 。 
例如 ， 如 果 有 一 百 万 个 交易 并 且 最 小 支持 度 是 1% ， 那 么 只 有 被 10 000 个 交易 支持 的 规则 才 
是 重要 的 。 这 是 有 道理 的 ， 因 为 生成 这 些 规则 的 目的 是 继续 进行 某 种 行动 一 一 诸如 和 Mattel 
(芭比 娃娃 的 生产 商 ) 做 成 一 笔 交 易 ， 制 作 可 食糖 块 玩偶 而 且 该 行动 必须 影响 足够 多 的 交易 
才 是 值得 的 。 

最 小 支持 度 约束 有 级 联 效应 。 考 虑 一 个 有 四 个 项 的 规则 : 

如 果 A、 巨 且 C， 那 么 卫 。 
使 用 最 小 支持 度 修剪 ， 这 一 规则 在 数据 中 必须 至 少 有 10 000 个 交易 是 真 的 。 由 此 得 出 结论 : 

A 必须 出 现在 至 少 10 000 个 交易 中 ， 并 且 ， 

刀 必须 出 现在 至 少 10 000 个 交易 中 ， 并 且 ， 

C 必须 出 现在 至 少 10 000 个 交易 中 ， 并且， 

刀 必须 出 现在 至 少 10 000 个 交易 中 。 

换 句 话说 ， 最 小 支持 度 修 剪 排 除了 没有 出 现在 足够 多 交易 中 的 项 。 阔 值 标准 应 用 于 该 算 
法 中 的 每 一 步 。 最 小 阔 值 也 隐 含 着 ; 

A 和 妃 必须 一 起 出 现在 至 少 10 000 个 交易 中 ， 并 且 ， 

和 和 C 必须 一 起 出 现在 至 少 10 000 个 交易 中 ， 并 且 ， 

A 和 D 必须 一 起 出 现在 至 少 10 000 个 交易 中 ， 
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依 此 类 推 。 
同 现 表格 的 每 一 步 计算 都 能 排除 不 符合 该 闪 值 的 项 组 合 ， 减 少 其 大 小 以 及 在 下 一 步 中 要 
考虑 的 组 合 数目 。 


图 9-11 演示 了 上 述 计算 如 何 进行 。 在 这 个 例子 中 ， 选 择 10% 的 最 小 支持 度 水 平 将 把 所 

有 具有 三 个 项 的 组 合 及 其 关联 规则 排除 在 考虑 范围 之 外 。 这 是 修剪 在 最 佳 规则 上 无 效 的 一 个 
例子 ， 因 为 最 佳 规则 只 有 两 个 项 。 在 比萨 饼 的 案例 中 ,这 些 比萨 配料 都 相当 普遍 ， 因 此 没有 
被 单独 修剪 。 如 果 在 分 析 之 中 包括 了 凤 尾 鱼 一 一 2000 个 比萨 饼 中 只 有 15 个 包含 它们 一 一 那 
么 10% 或 者 甚至 1% 的 最 小 支持 度 将 在 第 一 次 饥 历 中 排除 凤 尾 鱼 。 

一 家 比萨 饼 店 卖 了 2000 个 比萨 饼 ， 其 中 ， 

100 个 仅 包 含 蘑 东 ，150 个 是 意大利 辣 香 肠 ，200 个 有 额外 的 干酪 

400 个 是 蘑 莫 加 意大利 辣 香 肠 ，300 个 是 蘑菇 加 额外 的 干酪 ，200 个 是 意大利 辣 香 肠 加 额外 的 千 酷 


100 个 是 荐 落 、 意 大 利 辣 香肠 加 额外 的 干 本 
550 个 没有 额外 的 比萨 配料 


我 们 需要 计算 项 的 所 有 可 能 组 合 的 概率 。 


从 志 5 
100 + 400 + 300 + 100 = 900 个 比萨 饼 或 者 45% 
see 和 区 
2 -一 怖 生 和 意 jG 且 香 内、 “ 疏 全 部 都 有 

只 有 茧 菇 蘑 奖 和 额外 的 干酪 
人 150+ 400+ 200 + 100 = 850 个 比萨 饼 或 者 42.5% 


200 + 300 + 200 + 100 = 800 个 比萨 饼 或 者 40% 


400 + 100 = 500 个 比萨 饼 或 者 23% 


他。 

| 
++ 二 有 岂 

人 


大 
号 全 [CN 300 + 100 = 400 个 比萨 饼 或 者 20% 
褒 [四 200 + 100 = 300 个 比萨 饼 或 者 15% 
0 100 个 并 或 者 5% 
人 十 人 十 PE 个 比 床 饼 或 者 5%4 
有 三 个 具有 全 部 三 个 项 的 规则 ; 
支持 度 =59% 


3 十 省 一 中 


二 

过 

最 佳 规则 只 有 aa 四 ee 
两 个 项 : 2 。 


图 9-11 


置信 和 庶 =5% 除 以 23%=0.2 
提升 度 =209%6 (100/500) 除 以 40% (800/2000)=0.5 


支持 度 =5% 
置信 度 =5% 除 以 20%=0.25 
提升 度 =25% (100/400) 除 以 42.5% (850/2000)=0.588 


支持 度 =5% 
置信 和 庶 =5% 除 以 15%=0.333 
提升 度 =33.3% (100/300) 除 以 45$% (900/2000)=0.74 


支持 度 =259%6 
置信 和 度 =25% 除 以 42.5%=0.588 
提升 度 =55.6% (500/900) 除 以 43.5% (200/850)=1.31 


这 个 例子 显示 为 进行 购物 篮 分 析 ， 如 何 计 算 比 萨 饼 的 销售 次 数 
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对 最 小 支持 度 的 最 佳 选择 取决 于 数据 和 状况 。 在 算法 执行 的 过 程 中 ， 也 可 以 变更 最 小 支 
持 度 。 例 如 ， 在 不 同 阶段 使 用 不 同 水 平 ， 能 发 现 常见 项 的 不 平常 组 合 〈 通 过 逐步 减少 支持 度 
水 平 ) 或 者 不 常见 项 的 相对 常见 组 合 〈 通 过 增加 支持 度 水 平 )。 


9.4.4 大 数据 的 问题 


一 个 典型 的 快餐 店 在 其 菜单 上 提供 若 于 项 ， 比 如 说 100 项 。 要 使 用 概率 生成 关联 规则 ， 
就 必须 计算 每 一 种 项 组 合 的 计数 。 给 定 大 小 的 组 合 数 倾向 于 呈 指 数 级 增长 。 一 个 有 三 个 项 的 
组 合 可 能 是 小 份 炸 昔 条 、 于 酪 汉代 包 和 中 份 节食 可 乐 。 在 一 个 有 100 个 项 的 菜单 上 ， 有 多 少 
包含 三 个 菜单 项 的 不 同 组 合 呢 ? 有 161 700 个 ! 这 一 计算 是 基于 二 项 式 定 理 的 。 而 一 个 典型 
的 超市 的 库存 中 至 少 有 10 000 个 不 同 的 项 ， 更 典型 的 是 有 20 000 个 或 者 30 000 个 项 。 

随 着 项 数 在 组 合 中 的 增加 ， 计 算 支 持 度 、 置 信 度 和 提升 度 迅速 变 得 无 法 控制 。 在 杂货 店 
中 几乎 有 5000 万 个 可 能 的 两 个 项 的 组 合 和 超过 1000 亿 个 三 个 项 的 组 合 。 尽 管 计算 机 变 得 越 
来 越 强 大 ， 要 计算 这 么 多 组 合 的 计数 仍然 是 非常 耗 时 的 。 计 算 5 个 或 更 多 项 的 计数 会 昂贵 得 
令 人 望而却步 。 使 用 产品 分 层 可 以 把 项 数 减 少 到 一 个 可 管理 的 大 小 。 

交易 的 数目 也 非常 大 。 在 一 年 之 中 ， 规 模 适 中 的 超市 连锁 店 将 产生 几 千 万 或 几 亿 次 交 
易 。 其 中 每 一 笔 交易 都 由 一 个 或 更 多 项 组 成 ， 常 常 一 次 有 几 十 个 项 。 因 此 ， 确 定 项 的 某 个 特 
定 组 合 是 否 出 现在 某 个 特定 的 交易 中 可 能 需要 花费 一 点 精力 一 一 把 所 有 交易 增 大 100 万 倍 。 


9.5 扩展 思想 


关联 规则 的 基本 思想 能 够 适用 于 不 同 的 领域 ， 例 如 比较 不 同 的 店铺 ， 并 对 规则 的 定义 进 
行 一 些 强化 。 这 些 问 题 都 会 在 本 节 中 进行 讨论 。 


9.5.1 使 用 关联 规则 比较 店铺 


购物 篮 分 析 常 常用 于 对 连锁 公司 的 不 同 分 店 做 出 比较 。 关 于 五 金 店 中 抽水 马桶 清洁 器 销 
售 的 规则 是 一 个 在 新 店 销售 和 老 店 销售 进行 比较 的 例子 。 不 同 的 店铺 展现 出 不 同 的 销售 模式 
有 许多 原因 : 地 域 倾向 、 管 理 的 有 效 性 、 不 同 的 广告 和 在 服务 范围 内 各 不 相同 的 人 口 统 计 学 
模式 。 举 例 来 说 ， 在 热浪 效 击 期 间 人 们 常 去 购买 空调 和 风扇 ， 但 热浪 只 影响 有 限 的 地 域 范 
围 。 在 更 小 的 区 域内 ， 服 务 范围 内 人 口 统计 学 能 够 有 一 个 大 的 影响 。 我 们 会 期 望 在 富 人 区 的 
店铺 与 处 于 穷人 区 的 店铺 表现 出 不 同 的 销售 模式 。 这 些 是 购物 篮 分 析 能 帮助 描述 差别 的 例 
子 ， 也 可 以 作为 使 用 购物 篮 分 析 进 行 定 向 数据 挖掘 的 例子 。 

如 何 用 关联 规则 做 出 这 种 比较 ? 第 一 步 是 用 眼 拟 项 扩充 交易 ， 规 定 交 易 来 自 哪 个 组 ， 例 
如 ， 老 店 或 新 开张 的 店 。 尽 管 该 虚拟 项 不 是 一 个 产品 或 服务 ， 但 可 以 帮助 描述 这 个 交易 。 例 
如 ， 一 家 老 的 五 金 店 销售 的 物品 可 能 包括 下 列 产品 : 

。 锤子 

* 盒 装 钉 子 

*。 特 细 砂 纸 

提示 : 在 购物 篮 数据 中 加 入 虚拟 交易 ， 则 可 能 发 现 包括 店铺 特征 和 客户 特征 的 规则 。 

在 扩充 规定 该 交易 来 自 哪里 的 数据 之 后 ， 交 易 看 起 来 像 是 : 

锤子 ， 
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盒 装 钉子 ， 

特 细 砂纸 ， 

“在 一 个 老 的 五 金 店 。 

要 比较 新 开张 店铺 与 老 店铺 的 销售 情况 ， 过 程 是 : 

1) 收集 新 开张 店铺 在 一 个 规定 时 期 (例如 2 周 ) 内 的 数据 。 增 加 一 个 表示 该 交易 来 自 
新 开张 店 的 虚拟 项 扩充 数据 中 的 每 个 交易 。 

2) 从 老 店 中 收集 大 约 相同 数量 的 数据 。 这 里 可 以 使 用 一 个 跨越 所 有 老 店 铺 的 样本 ， 或 
者 可 以 从 位 置 相当 的 店铺 取得 所 有 数据 。 用 表示 该 交易 来 自 老 店铺 的 虚拟 项 扩充 这 一 数据 中 
的 交易 。 

3) 应 用 购物 篮 分 析 以 发 现在 每 个 集合 中 的 关联 规则 。 

4) 特别 注意 包含 虚拟 项 的 关联 规则 。 

因为 关联 规则 是 非 定向 数据 挖掘 ， 所 以 规则 作为 进一步 假设 测试 的 起 点 。 为 什么 一 个 模 
式 存在 于 老 店 铺 而 另 一 个 存在 于 新 店铺 呢 ? 例如 ， 关 于 抽水 马桶 清洁 器 和 店铺 开张 的 规则 ， 
建议 老 店 在 本 年 内 的 不 同时 间 更 紧密 地 关注 抽水 马桶 清洁 器 的 销售 情况 。 

使 用 这 一 技术 ， 购 物 篮 分 析 能 够 用 于 许多 其 他 类 型 的 对 比 ， 

。 促 销 期 与 其 他 时 间 的 销售 对 比 

* 在 各 种 地 理 区 域 的 销售 状况 ， 按 照 郡 县 、 标 准 统 计 都 市 区 域 (standard statistical 

metropolitan area，SSMA) 、 定 向 市 场 车 销 区 域 (direct marketing area，DMA) 或 国 

家 等 

*。 市 区 与 城郊 销售 对 比 

。 销 售 模式 的 季节 性 差别 

在 每 个 购物 篮 中 加 入 虚拟 项 ， 使 标准 关联 规则 技术 能 够 进行 对 比 。 


9.5.2 无 关 规则 


无 关 规 则 (dissociation rule) 与 关联 规则 类 似 ， 只 是 在 条 件 中 用 “与 非 ” 连 接 符 代替 
“与 ”。 一 个 典型 的 无 关 规 则 看 上 去 像 : 

如 果 4 与 非 召 ， 那 么 C。 

无 关 规 则 能 够 通过 基本 的 购物 篮 分 析 算 法 简单 改编 生成 。 改 编 是 引 和 人 一 个 新 的 项 集 ， 其 
中 每 一 项 都 是 初始 项 的 反 转 项 。 然 后 ， 当 且 仅 当 它 不 包含 初始 项 的 时 候 ， 修 改 每 个 交易 使 它 
包括 一 个 反 转 项 。 例 如 ， 表 9-8 显示 了 几 个 交易 的 转换 。 项 前 面 的 “- ”表示 反 转 项 。 


表 9-8 生成 无 关 规则 的 交易 转换 


顾 客 项 顾 客 加 入 反 转 项 
1 AAA Bcl 1 14，B，C| 
2 141 2 14A, 一 B, 一 C| 
3 14，CI 3 14,， 一 B，Cl 
4 144 4 14， 一 B， 一 CI 
S 二 5 一 4A， 一 B， 一 CI 


包含 进 这 些 新 项 有 三 个 负面 的 影响 。 第 一 ， 用 于 分 析 的 项 总 数 会 加 倍 。 因 为 计算 量 按 项 
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数 呈 指数 增长 ， 项 的 数目 加 倍 严重 降低 了 性 能 。 第 二 ， 典 型 交易 的 大 小 增加 ， 因 为 它 现在 包 
插 了 反 转 项 。 第 三 个 问题 是 ， 反 转 项 的 出 现 次 数 趋 向 于 比 初 始 项 的 出 现 次 数 大 得 多 ， 因 此 ， 
最 小 支持 度 约束 倾向 于 产生 所 有 项 都 是 反 转 项 的 规则 ， 例 如 : 

如 果 非 A 与 非 召 ， 那么 非 C。 
这 些 规 则 不 像 是 可 操作 的 。 

有 时 在 用 于 分 析 的 集合 中 只 反 转 最 常 出 现 的 项 是 有 用 的 。 当 一 些 初始 项 的 出 现 频率 接近 
50% 时 这 尤其 有 价值 ， 这 样 它们 的 反 转 项 的 频率 也 接近 50% 。 


9.6 使 用 关联 规则 的 顺序 分 析 


关联 规则 发 现在 同一 时 间 发 生 的 事情 一 一 在 给 定时 间 购 买 了 哪些 项 。 下 一 个 很 自然 的 问 
题 是 关于 事件 的 顺序 和 它们 意味 着 什么 。 该 类 领域 的 示例 有 : 

。 新 的 房 主 在 购买 家 具 前 购买 淋浴 帘 。 

。 购买 新 的 剪 草 机 的 顾客 很 可 能 在 接 下 来 的 6 周 内 购买 新 的 橡胶 软 管 。 

“ 当 客 户 走 进 银行 分 支 机 构 并 索要 账户 对 账单 时 ， 极 有 可 能 他 或 她 将 关闭 其 所 有 的 

账户 。 

时 间 序 列 数据 通常 需要 一 些 随时 间 识 别 客户 的 方法 。 工 名 交易 不 能 披露 新 的 房 主 在 买 家 
有 具 之 前 购买 淋浴 帘 。 这 要 求 追踪 每 个 客户 ， 也 要 知道 哪些 客户 最 近 购买 了 房子 。 因 为 大 宗 购 
夹 常常 是 用 信用 卡 或 借 记 卡 支 付 的 ， 这 很 少 成 为 一 个 问题 。 对 在 其 他 领域 的 问题 ， 例 如 调查 
医疗 治理 的 效果 或 在 银行 的 客户 行为 ， 所 有 交易 通常 包含 了 识别 信息 。 

警告: 为 考虑 对 客户 进行 时 间 序 列 分 析 ， 必 须 找 出 一 些 方法 识别 客户 。 如 果 没 有 方 

法 能 追踪 单个 客户 ， 就 不 可 能 分 析 他 们 随时 间 变 化 的 行为 。 

针对 本 节 的 目的 ， 时 间 序 列 〈time series) 是 项 的 有 序 序列 。 它 不 同 于 仅仅 被 排序 的 交 
易 。 一 般 而 言 ， 时 间 序 列 包含 关于 顾客 的 身份 识别 信息 ， 因 为 这 一 信息 用 于 把 不 同 的 交易 连 
接 到 一 起 组 成 序列 。 尽 管 有 许多 技术 用 于 分 析 时 间 序 列 ， 诸 如 ARIMA (一 项 统计 技术 ) 和 
神经 网 络 (neural network) ， 但 本 节 只 讨论 如 何 把 时 间 序 列 数据 用 于 购物 篮 分 析 。 

为 了 使 用 时 间 序 列 ， 交 易 数据 必须 具有 两 项 额外 的 特征 

。 一 个 时 间 惟 或 顺序 信息 来 确定 交易 前 后 出 现 的 顺序 。 

“。 识别 信息 ， 例 如 账户 号 码 、 家 庭 ID 或 顾客 ID， 以 识别 那些 属于 同一 客户 或 家 庭 的 不 

同 交易 〈 有 时 称 为 一 个 经 济 交易 单位 )。 

建立 顺序 规则 与 建立 关联 规则 的 过 程 相似 ; 

1) 一 个 客户 购买 的 所 有 项 被 当 作 单个 订购 处 理 ， 每 个 项 保留 标记 它 是 何 时 购买 的 时 
间 惟 。 

2) 该 过 程 与 发 现 一 起 出 现 的 项 群 组 的 过 程 相 同 。 

3) 为 了 展开 该 规则 ， 只 有 那些 左边 的 项 在 右边 的 项 之 前 被 购买 的 规则 才 了 予以 考虑 。 

这 样 得 到 的 结果 是 一 组 能 够 揭示 顺序 模式 的 关联 规则 。 


9.7 小 缚 


购物 篮 数据 描述 客户 购买 什么 。 分 析 这 一 数据 是 复杂 的 ， 并 且 没 有 一 种 单一 的 技术 强大 
到 足以 提供 所 有 的 答案 。 数 据 本 身 通常 在 三 个 不 同 层次 上 描述 购物 篮 。 订 单 是 购买 活动 的 结 


免费 领取 更 多 资源 V: 3446034937 


216 匣 9 作 


果 ， 订 单项 是 购买 中 的 项 ， 客 户 把 订单 和 时 间 关 联 到 一 起 。 

关于 客户 行为 的 许多 重要 问题 能 够 通过 观察 产品 销售 随时 间 的 变化 做 出 回答 。 哪 些 是 最 
佳 销 售 项 ? 哪些 项 去 年 卖 得 挺 好 而 今年 不 再 卖 得 那么 好 ? 存货 曲线 不 要 求 交 易 层面 的 数据 ， 
也 许 它们 提供 的 最 重要 的 信息 是 市 场 营销 干预 的 效果 一 一 在 一 个 特定 的 事件 之 后 销售 是 上 升 
还 是 下 降 ? 

然而 ， 存 货 曲 线 对 于 了 解 在 单个 购物 篮 中 项 之 间 的 关系 是 不 够 的 。 一 项 强 有 力 的 技术 是 
关联 规则 ， 这 一 技术 发 现 倾向 于 同时 销售 的 成 组 产品 。 有 的 时 候 ， 这 个 群 组 对 于 深入 了 解 事 
件 是 足够 了 ; 但 其 他 时 候 ， 群 组 被 转换 为 清晰 的 规则 一 一 当 特 定 项 出 现时 ， 我 们 期 望 在 篮子 
中 发 现 某 些 其 他 的 项 。 

关联 规则 有 三 个 度量 。 支 持 度 反 映 在 交易 数据 中 发 现 该 规则 的 频繁 程度 ， 置 信 度 说 明 当 
“如 果 ” 部 分 为 真 时 “那么 ”部 分 也 为 真 的 频繁 程度 ， 而 提升 度 反 映 该 规则 预测 “那么 ”部 
分 相对 于 根本 没有 规则 要 好 多 少 。 

这 样 生成 的 规则 可 以 分 成 三 类 : 有 用 的 规则 盖 明 可 能 没有 预料 到 的 关系 ， 平 凡 规 则 阐明 
已 知 (或 应 该 知道 ) 存在 的 关系 ,费解 的 规则 没有 意义 。 费 解 规则 常常 有 很 弱 的 支持 度 。 

购物 篮 分 析 和 关联 规则 提供 项 层次 细节 的 分 析 方法 ， 其 中 项 之 间 的 关系 由 它们 落 入 的 篮 
子 决定 。 在 下 一 章 中 ， 我 们 将 转向 链接 分 析 ， 它 推广 了 由 “关系 ”链接 “项 ”的 思想 ， 利 用 
数学 领域 中 称 为 图 论 的 内 容 为 背景 。 
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第 10 章 链接 分 析 


英国 航空 公司 和 法 国航 空 公 司 的 国际 线路 图 不 仅 可 以 为 旅行 规划 提供 帮助 ， 还 提供 了 次 
和 人 了解 各 自 国家 和 昔日 帝国 的 历史 及 政治 的 相关 信息 。 从 纽约 启程 去 蒙 巴萨 的 旅客 会 在 希 思 
罗 机 场 转机 ， 而 启程 到 阿 比 让 的 旅客 会 在 高 卢 的 查尔斯 机 场 转机 。 国 际 线路 图 显示 出 从 已 知 
事物 的 相互 联系 中 能 够 获得 多 少 信息 。 

哪些 网 站 与 其 他 哪些 网 站 链接 ? 谁 用 电话 呼叫 谁 ? 哪些 医师 为 哪些 病人 开 哪 些 药 ? 这 些 
关系 在 数据 中 都 是 可 见 的 ， 并 且 它 们 都 包含 着 大 多 数 数据 挖掘 技术 不 能 直接 利用 的 丰富 信 
息 。 在 联系 越 来 越 多 的 世界 中 (据说 ， 在 这 个 星球 上 的 任何 两 个 人 不 存在 超过 六 种 程度 的 分 
离 )， 理 解 相 互 关 系 和 联系 是 很 关键 的 ， 链 接 分 析 〈link analysis) 就 是 定位 于 这 一 需求 的 数 
据 挖 掘 技 术 。 

链接 分 析 是 以 称 为 图 论 (graph theory) 的 数学 分 支 为 基础 的 。 本 章 首 先 回顾 图 的 基本 
概念 ， 然 后 展示 链接 分 析 如 何 应 用 于 解决 现实 问题 。 链 接 分 析 并 不 适用 于 所 有 类 型 的 数据 ， 
也 不 能 解决 所 有 类 型 的 问题 ， 但 在 可 以 应 用 的 情况 中 ， 它 常常 会 产生 很 富 洞察 力 且 可 操作 的 
结果 。 它 已 经 产生 很 好 结果 的 一 些 领域 是 : 

。 在 万 维 网 上 通过 分 析 页 面 之 间 的 链接 识别 权威 信息 源 ; 

*。 分析 电话 呼叫 模式 ， 可 以 识别 特定 市 场 群体 ， 诸 如 在 家 工作 的 人 们 ; 

。 理 解 医师 转 诊 介 绍 模式 。 转 诊 介绍 是 在 两 个 医师 之 间 的 某 种 关系 ， 这 又 是 链接 分 析 非 

常 适 用 的 一 个 领域 。 

即使 在 明确 记录 链接 的 情况 下 ， 把 链接 组 合成 有 用 的 图 可 能 也 是 数据 处 理 的 一 个 很 大 挑 
战 : 网 页 之 间 的 链接 被 编码 在 页 面 自 身 的 超 文本 标记 语言 (Hypertext Markup Language， 
HTML) 中 ; 电话 之 间 的 链接 记录 在 呼叫 明细 记录 中 。 然 而 ， 如 果 没 有 相当 可 观 的 预 处 理 ， 
这 些 数据 源 没 有 一 个 对 于 链接 分 析 是 有 用 的 。 还 有 另 一 些 情形 ， 其 中 的 链接 是 隐 含 的 ， 数 据 
挖 气 要 解决 的 一 部 分 问题 就 是 找到 它们 。 

本 章 首先 简要 介绍 图 论 及 其 解决 的 一 些 经 典 问题 ， 然 后 转向 它 在 数据 挖掘 中 的 应 用 ， 诸 
如 搜索 引擎 分 级 和 呼叫 明细 记录 分 析 等 。 


10.1 图 论 基础 


图 是 专门 发 展 用 于 表示 关系 的 抽象 观念 。 不 论 在 数学 还 是 在 计算 机 科学 中 ， 开 发 充分 利 
用 这 些 关 系 的 算法 已 被 证 明 是 非常 有 用 的 。 值 得 庆幸 的 是 ， 图 十 分 直观 ， 并 有 大 量 的 例子 阐 
明 如 何 运用 它们 。 

图 由 两 个 截然 不 同 的 部 分 组 成 : 

。 结 点 〈node) (有 时 称 为 顶点 ，vertex) 是 在 图 中 具有 某 种 关系 的 事物 。 这 些 结 点 具有 

名 称 且 常常 具有 额外 的 有 用 属性 。 

。 边 〈edge) 是 通过 关系 连接 的 成 对 结 点 。 一 条 边 可 以 由 它 连 接 的 两 个 结 点 表示 ， 因 此 

(4A，B) 或 4B 表示 连接 A 和 己 的 边 。 在 加 权 图 (weighted graph) 中 边 也 可 能 有 

权重 。 
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图 10-1 给 出 了 两 个 图 。 左 边 的 图 有 四 个 结 点 ， 由 六 条 边 连接 ， 具 有 “在 每 对 结 点 之 间 
都 有 一 条 边 ” 这 一 特点 ， 这 样 的 图 被 称 为 完全 连通 的 〈fully connected)。 它 可 以 代表 在 亚 特 
兰 大 、 组 约 、 辛 辛 那 提 和 盐湖 城 之 间 航线 上 的 日 常 航班 ， 这 四 个 城市 是 作为 区 域 交 通 枢纽 ; 
也 可 以 代表 全 都 相互 认识 的 四 个 人 ,或 者 用 于 刑事 调查 的 四 个 相互 关联 的 线索 。 右 边 的 图 在 
中 心 有 一 个 结 点 与 其 他 四 个 结 点 连接 。 这 可 以 代表 以 亚特兰大 为 中 心服 务 于 东南 部 ， 连 接 亚 
特 兰 大 与 伯明翰 、 格 林 维 尔 、 夏 洛 特 和 萨 凡 纳 等 城市 的 日 常 航 班 ， 或 者 一 家 频频 被 四 种 信用 
卡 客户 光顾 的 餐馆 。 图 本 身 捕捉 了 关于 什么 与 什么 相 联系 的 信息 ， 它 没有 任何 标记 ， 可 以 用 
于 描述 许多 不 同 的 情形 ， 这 就 是 抽象 的 力量 。 


有 四 个 结 点 和 六 条 边 的 完全 连通 图 。 在 完 有 五 个 结 点 和 四 条 边 的 图 。 
全 连通 图 中 ， 每 对 结 点 之 间 有 一 条 边 。 


图 10-1 图 的 两 个 例子 


关于 图 有 几 个 术语 。 因 为 图 对 于 关系 可 视 化 是 非常 有 用 的 ， 所 以 当 所 有 结 点 与 边 能 够 用 
不 相交 的 边 画 出 时 它 是 完美 的 。 图 10-2 中 的 图 具有 这 一 特性 。 它 们 是 平面 图 (planar 
graph) ， 因 为 它们 能 够 画 在 一 张 纸 上 〈 数 学 家 称 为 平面 )， 且 没有 任何 边 相交 。 图 10-2 显示 
了 两 个 图 ， 如 果 没 有 至 少 两 条 边 交 叉 ， 这 两 个 图 是 画 不 出 来 的 。 事 实 上 ， 在 图 论 中 有 一 个 定 
理 : 如 果 一 个 图 是 非 平 面 的 ， 那 么 前 面 描述 的 两 个 图 之 一 必然 潜藏 在 其 中 。 


跑 呀 ! 这 些 边 相交 。 


车 设 有 两 条 边 相 交 ， 三 个 结 有 五 个 结 点 的 完全 连通 
点 不 能 连接 其 他 三 个 结 点 。 图 必须 也 有 相交 的 边 。 


图 10-2 ”如 果 没 有 一 些 边 互 相交 叉 ， 不 是 所 有 的 图 都 能 画 得 出 来 
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当 图 中 任意 两 结 点 之 间 都 存在 一 条 路 径 时 ， 图 被 称 为 连通 的 。 本 章 后 面部 分 中 ， 除 非 另 
有 说 明 ， 我 们 假定 所 有 图 是 连通 的 。 路 径 ， 顾 名 思 义 ， 是 一 个 被 边 连 接 的 结 点 的 有 序 序列 。 
设想 图 中 每 个 结 点 代表 一 个 城市 ， 边 是 在 成 对 的 城市 间 的 航班 ， 在 这 样 的 图 上 ， 结 点 是 城 
市 ， 边 是 航 段 ， 而 路 径 是 从 一 个 城市 到 另 一 个 城市 的 航 段 路 线 ， 诸 如 从 南 加 利 福 尼 亚 的 格林 
维尔 到 亚特兰大 ， 从 亚特兰大 到 芝加哥 ， 从 芝加哥 到 Peoria 等 。 

图 10-3 是 一 个 加 权 图 的 例子 ， 其 中 的 边 有 权重 与 之 相关 联 。 在 这 一 案例 中 ， 结 点 代表 
顾客 购买 的 产品 ， 边 上 的 权重 代表 对 关联 的 支持 度 ， 即 购物 篮 包 含 两 种 产品 的 百分比 。 这 样 
的 图 提供 了 一 种 解决 购物 篮 分 析 问 题 的 方法 ， 它 同时 也 是 可 视 化 购物 篮 数据 的 有 用 工具 。 这 
个 产品 关联 图 是 一 个 无 向 图 的 例子 。 该 图 显示 在 这 个 保健 食品 店 的 22.12% 的 购物 篮 中 包含 
黄 胡椒 和 香 葵 两 种 物品 ， 但 这 个 图 本 身 不 能 解释 是 黄 胡椒 销售 激励 了 香蕉 销售 ， 还 是 香花 销 
售 激励 了 黄 胡椒 ， 或 者 是 否 有 另外 某 些 事件 驱动 所 有 黄色 水 果 和 蔬菜 的 购买 。 


图 10-3 这 是 一 个 加 权 图 的 例子 ， 其 中 边 的 权重 是 交易 的 数量 ， 
结 点 的 每 一 端 表示 购买 的 物品 


在 链接 分 析 中 一 个 非常 普遍 的 问题 是 发 现在 两 个 结 点 之 间 的 最 短路 径 ， 尽 管 哪 一 个 最 短 
依赖 于 指派 给 边 的 权重 。 我 们 来 考虑 城市 之 间 的 航班 图 ， 最 短 指 的 是 工 离 吗 ? 还 是 指 最 少数 
目的 航 段 ”最 短 的 飞行 时 间 ? 还 是 最 小 的 费用 ? 所 有 这 些 问题 都 可 以 利用 图 以 相同 方式 回 
答 一 一 惟一 不 同 的 是 边 的 权重 。 

接 下 来 的 两 节 描述 了 在 图 论 中 的 两 个 经 典 问题 ， 它 们 展示 了 图 表达 问题 和 解决 问题 的 能 
力 。 几 乎 没有 数据 挖掘 问题 恰好 与 这 两 个 问题 相似 ， 但 这 些 问 题 可 以 让 我 们 体会 到 ， 这 些 简 
单 图 形 构筑 是 如 何 给 出 一 些 重要 的 解决 方案 的 。 给 出 这 些 例子 的 目的 ， 一 是 通过 提供 在 图 论 
中 关键 概念 的 例子 使 读者 熟悉 图 ， 二 是 为 讨论 链接 分 析 打 下 坚实 的 基础 。 


10.1.1 哥 尼 斯 堡 七 桥 问 题 
在 图 论 中 最 早 的 一 个 问题 起 因 于 一 个 简单 挑战 ， 它 是 由 瑞士 数学 家 莱 昂 哈 德 . 欧 拉 在 18 世 


免费 领取 更 多 资源 V: 3446034937 


220 甸 10 茧 


纪 提出 的 。 如 图 10-4 中 的 简单 地 图 所 示 ， 哥 尼斯 堡 有 两 个 岛 位 于 Pregel 河中 ， 两 个 岛 与 城市 其 
余部 分 之 间 共 通过 七 座 桥 相 接 ， 在 河 的 任何 一 边 或 者 在 岛 上 ， 都 有 可 能 到 达 任 何 一 座 桥 。 
图 10-4 显 示 了 通过 五 座 桥 正 好 一 次 穿 过 该 城 的 一 条 路 径 。 欧 拉 提出 这 样 的 问题 : 由 城中 的 任何 
地 方 动身 ， 不 弄 湿 身 体 ( 译 者 注 : 指 游 过 河 ) 或 者 使 用 船 ， 有 可 能 一 次 正好 走 过 所 有 的 七 座 桥 
吗 ? 作为 一 个 有 历史 意义 的 标记 ， 这 个 问题 已 比 这 个 城市 的 名 字 存 在 得 还 要 入。 在 18 世纪 ， 
哥 尼斯 堡 是 座 落 在 立陶宛 和 波兰 之 间 濒 临 波罗的海 的 一 个 重要 的 普鲁士 城市 ， 现 在 称 为 加 里 于 
格 勒 ， 是 俄罗斯 最 西部 的 飞 地 领土 ， 被 立陶宛 和 白俄罗斯 与 俄罗斯 的 其 他 领土 隔 开 。 


图 10-4 哥 尼 斯 堡 的 Pregel 河上 有 两 个 岛 ， 由 七 座 桥 连接 


为 了 解决 这 一 问题 ， 欧 拉 发 明了 图 符号 表示 法 。 用 图 10-5 中 所 示 的 具有 四 个 顶点 和 七 
条 边 的 简单 图 来 表示 哥 尼 斯 堡 的 地 图 。 一 些 结 点 对 之 间 被 多 条 边 连 接 ， 标 志 着 在 它们 之 间 有 多 
于 一 座 的 桥 。 找 到 一 次 正好 穿 过 哥 尼 斯 堡 所 有 桥 的 路 线 等 同 于 找到 在 图 中 一 次 访问 完 每 一 条 边 
的 路 径 。 为 了 向 提出 和 解决 这 一 问题 的 那 位 数学 家 表示 和 敬意， 这 一 路 径 被 称 为 欧 拉 路 径 。 


40 
宫 


叶 
局 


10-5 该 图 表示 哥 尼 斯 堡 的 线路 图 。 边 是 桥 ， 结 点 是 河岸 和 岛 


为 什么 度 必 须 是 偶数 ? 
依靠 简单 的 观察 就 可 以 发 现 ， 只 有 当 所 有 结 点 上 的 度 是 偶数 〈 最 多 只 有 两 个 除外 ) 时 ， 
一 条 欧 拉 路 径 才 存在 。 这 一 观察 是 关于 图 中 路 径 的 ， 设 想 如 下 一 条 通过 桥 的 路 径 : 
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A 一 CH 一人 (CD 

使 用 的 边 是 : 

AGCr 一 BO 一 BC 一 CD 

图 中 连接 中 间 结 点 的 边 是 成 对 出 现 的 。 换 名 话 说 ， 每 一 条 入 边 都 有 出 边 。 例 如 ， 结 点 C 
有 四 条 边 访问 它 ， 结 点 了 有 两 条 。 由 于 边 是 成 对 出 现 的 ， 每 一 个 中 间 结 点 在 路 径 中 具有 偶 
数 条 边 。 因 为 欧 拉 路 径 包 售 图 中 的 所 有 边 并 访问 所 有 结 点 ， 只 有 当 图 中 所 有 结 点 〈 减 掉 两 个 
端 结 点 ) 能 充当 路 径 的 中 间 结 点 时 才 会 存在 这 样 的 路 径 ， 这 是 解释 那些 结 点 的 度 是 偶数 的 另 
一 种 方式 。 

欧 拉 也 证 明了 其 反面 为 真 。 当 图 中 所 有 结 点 〈 至 多 两 个 除外 ) 有 偶数 个 度 ， 那 么 存在 欧 
拉 路 径 。 这 一 证 明 有 点 复杂 ， 但 其 思想 相当 简单 。 要 建立 一 条 欧 拉 路 径 ， 可 以 从 任何 结 点 开 
始 〈 甚 至 度 为 奇数 的 那个 ) ， 移 向 任何 其 他 度 为 偶数 的 结 点 。 从 图 上 抹 掉 刚刚 经 过 的 边 ， 把 
它 作 为 在 欧 拉 路 径 中 的 第 一 条 边 。 现 在 的 问题 是 找到 一 条 起 始 于 图 中 第 二 个 结 点 的 欧 拉 路 
径 ， 当 最 多 有 两 个 结 点 的 度 是 奇数 时 ， 通 过 保持 跟踪 结 点 的 度 ， 有 可 能 建立 这 样 一 条 路 径 。 


欧 拉 设计 了 一 个 基于 图 中 进出 每 个 结 点 的 边 的 数目 的 解决 方案 。 这 种 边 的 数目 被 称 为 结 
点 的 度 。 例 如 ， 在 表示 哥 尼 斯 堡 的 七 座 桥 的 图 中 ， 表 示 海 滨 的 两 个 结 点 的 度 都 是 3 一 一 对 应 
于 有 三 座 桥 把 岛屿 连接 到 对 面 的 陆地 这 一 事实 ; 另外 两 个 代表 岛屿 的 结 点 具有 的 度 为 5 和 
3。 欧 拉 证 明 ， 除 了 最 多 有 两 个 例外 ， 只 有 当 图 中 所 有 结 点 的 度 为 偶数 时 欧 拉 路 径 存 在 〈 见 
为 什么 度 必须 是 偶数 ”部 分 )。 因 此 ， 要 走 遍 哥 尼 斯 堡 的 七 座 桥 且 只 能 一 次 穿越 一 座 桥 是 不 
可 能 的 ， 因 为 有 四 个 度 为 奇数 的 结 点 。 


10.1.2 旅行 推销 员 问 题 


在 图 论 中 一 个 更 新 的 问题 是 “旅行 推销 员 问 题 ”。 在 这 个 问题 中 ， 一 名 推销 员 需 要 访问 
一 系列 城市 中 的 客户 。 他 打算 乘 飞 机 到 达 其 中 的 一 座 城 市 ， 租 一 辆 车 ， 访 问 那里 的 客户 ， 然 
后 驾车 到 另外 的 每 个 城市 访问 其 余 的 每 个 客户 。 他 把 车 留 在 最 后 的 城市 并 飞 回 家 。 这 个 推销 
员 能 够 采用 的 可 能 路 线 有 很 多 。 什 么 路 线 可 以 使 他 旅行 的 总 距离 最 短 而 仍然 允许 他 正好 一 次 
访问 完 每 个 城市 ? 

旅行 推销 员 问题 可 以 很 容易 地 使 用 图 再 现 ， 因 为 图 可 以 很 自然 地 表示 被 道路 连接 的 城 
市 。 在 表示 这 一 问题 的 图 中 ， 结 点 是 城市 ， 每 条 边 的 权重 对 应 于 边 连 接 的 两 个 城市 之 间 的 距 
离 。 旅 行 推 销 员 问 题 因此 是 在 寻求 “一 次 访问 图 中 所 有 结 点 的 最 短路 径 是 什么 ?” 注 意 这 一 
问题 与 哥 尼 斯 堡 的 七 座 桥 有 所 不 同 。 我 们 不 是 对 找 出 恰好 一 次 访问 所 有 结 点 的 路 径 感 兴趣 ， 
而 是 在 所 有 可 能 的 路 径 中 找到 最 短 的 一 条 。 注 意 所 有 欧 拉 路 径 具 有 完全 相同 的 长 度 ， 因 为 它 
们 包含 完全 相同 的 边 ， 寻 求 最 短 的 欧 拉 路 径 没 有 意义 。 

对 三 、 四 个 城市 解决 旅行 推销 员 问 题 并 不 困难 。 有 四 个 结 点 的 最 复杂 的 图 是 图 中 每 个 结 
点 与 余下 的 每 个 结 点 都 相连 的 一 个 完全 连通 图 ， 在 这 个 图 中 ， 访 问 每 个 结 点 正好 一 次 会 有 
24 个 不 同 的 路 径 。 要 计算 路 径 的 数目 ， 从 任何 结 点 处 开始 〈 有 四 种 可 能 性 )， 然 后 走向 剩 下 
的 三 个 结 点 中 的 任何 一 个 ， 然 后 走向 其 余 两 个 中 的 任何 一 个 ， 并 最 终 到 达 最 后 的 结 点 (4x 3x 
2*1=41!=24)。 有 2 个 结 点 的 完全 连通 图 具有 7 ! (z2 的 阶乘 ) 个 包含 所 有 结 点 的 截然 不 同 
的 路 径 ， 每 条 路 径 都 具有 稍微 不 同 的 边 的 集合 ， 因 此 它们 的 长 度 通常 不 同 。 列 出 24 条 可 能 
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的 路 径 不 是 那么 难 ， 对 于 这 一 简单 的 情形 ， 找 到 最 短路 径 不 是 特别 困难 。 

找 出 连接 结 点 的 最 短路 径 的 问题 是 爱尔兰 数学 家 威廉 'R' 哈 密 尔 顿 甸 士 首先 提出 的 。 在 
物理 系统 中 能 量 最 小 化 研究 把 他 引 向 某 种 特定 离散 系统 中 能 量 最 小 化 的 研究 ， 他 把 该 离散 系 
统 用 图 表示 。 为 了 纪念 他 ， 人 们 把 在 图 中 一 次 访问 所 有 结 点 的 路 径 称 为 哈密 尔 顿 路 径 。 

旅行 推销 员 问 题 难 以 解决 : 任何 解决 方案 必须 考虑 穿越 图 中 所 有 可 能 路 径 ， 以 便 确 定 娜 一 
个 最 短 ， 而 在 一 个 完全 连通 图 中 路 径 的 数目 增长 很 快 一 一 那 是 阶乘 。 对 于 完全 连通 图 为 真 的 事 
对 于 通常 的 图 也 为 真 : 访问 所 有 结 点 的 可 能 路 径 数目 增长 是 结 点 数目 的 指数 函数 〈 尽 管 有 一 些 
简单 图 不 是 这 样 )。 因 此 ， 当 城市 数目 增加 时 ， 发 现 最 短路 径 所 需 的 工作 按 指数 级 增长 : 多 增 
加 一 个 城市 〈 具 有 关联 的 道路 ) ， 就 可 能 导致 花费 两 倍 长 或 更 长 时 间 去 发 现 解决 方案 。 

这 种 可 量 测 性 (scalability) 的 缺乏 是 如 此 重要 以 至 于 数学 家 已 给 它 命名 NP 一 一 在 这 里 
NP 是 指 用 于 解决 这 个 问题 的 所 有 已 知 算法 都 按 指 数 增加 一 而 不 是 像 多 项 式 那 样 。 这 些 问 
题 都 被 认为 是 困难 的 ， 实 际 上 ， 旅 行 推销 员 问 题 是 如 此 困难 以 至 于 它 被 用 于 评测 并 行 计 算 机 
和 奇异 算法 一 一 诸如 用 DNA 或 量子 物理 学 诀窍 作为 计算 机 的 基础 ， 而 不 是 我 们 更 熟悉 的 由 
硅 制 成 的 计算 机 芯片 。 

包含 图 论 在 内 ， 对 计算 机 而 言 有 相当 好 的 启发 式 算法 〈heuristic algorithm) 可 以 对 旅行 
推销 员 问 题 提供 合理 的 解决 方案 ， 所 给 出 路 径 是 相对 短 的 路 和 从， 虽然 并 不 能 保证 就 是 最 短 的 
路 径 。 如 果 你 遇 到 类 似 的 问题 ， 这 是 个 有 用 的 论据 。 一 个 通常 的 算法 是 贪 禁 算法 (greedy 
algorithm) : 路 径 起 始 于 图 中 最 短 的 边 ， 然 后 用 从 一 端 访 问 新 结 点 的 可 用 的 最 短 边 来 继续 这 
个 路 径 ， 这 样 给 出 的 路 径 一 般 是 相对 短 的 ， 尽 管 不 一 定 是 最 短 的 〈 见 图 10-6)。 


图 10-6 在 这 个 图 中 ， 最 短路 径 (ABCDE) 的 长 度 为 24， 但 贪 焚 
算法 找到 了 一 条 长 得 多 的 路 径 (CDBEAI) 
提示 : 通常 来 说 ， 应 该 使 用 一 个 能 得 出 好 的 但 不 是 完美 的 结果 的 算法 ， 而 不 是 试图 
分 析 达 到 理想 解决 方案 的 困难 ， 或 者 因为 不 能 保证 发 现 最 优 解决 方案 而 放弃 ， 正 如 
Voltaire 指出 的 ,“Le mieux est 瑟 ennemi du bien. ”( 最 好 是 好 的 敌人 。) 
10.1.3 有 向 图 


到 目前 为 止 讨论 的 图 是 无 向 的 。 在 无 向 图 中 ， 边 如 同 结 点 之 间 的 高 速 公 路 : 它们 双向 通 
行 。 在 有 向 图 中 ， 边 如 同 单行 道 ， 从 A 到 也 的 边 与 从 B 到 A 的 边 截然 不 同 。 从 A 到 了 的 有 
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向 边 是 A 的 出 边 和 也 的 入 边 。 

有 向 图 是 表示 数据 的 有 效 方式 : 

* 连接 一 组 城市 的 航 段 

。 网 页 之 间 的 超 链接 

。 电 话 呼叫 模式 

。 状 态 转换 图 (state transition diagram ) 

在 有 向 图 中 ， 两 种 类 型 的 结 点 特别 重要 。 连 接 源 结 点 的 所 有 边 是 出 边 。 由 于 没有 人 边 ， 
所 以 不 存在 从 图 中 任何 其 他 结 点 到 任 一 源 结 点 的 路 径 。 当 结 点 上 所 有 边 是 人 边 时 ， 该 结 点 称 
为 宿 结 点 。 源 结 点 和 宿 结 点 的 存在 是 有 向 图 与 无 向 图 之 间 一 个 重要 的 区 别 。 

有 向 图 的 一 个 重要 属性 是 该 图 是 否 包 含 任何 起 始 和 终止 于 同一 个 顶点 的 路 径 。 这 样 的 路 
径 被 称 为 环 ， 意 思 是 该 路 径 能 够 无 穷 重 复 自 身 ， ABCABCABC， 等 等 。 如 果 一 个 有 向 图 包含 
至 少 一 个 环 ， 它 被 称 为 循环 的 。 例 如 ， 航 线 图 中 的 环 可 以 是 单个 飞机 的 路 径 ; 在 一 个 呼叫 图 
中 ， 环 的 成 员 彼 此 呼叫 它们 或 者 是 会 使 整个 群 组 得 到 折扣 的 “亲友 号 码 组 ”促销 的 好 候 
选 者 ， 或 者 是 促销 会 议 呼叫 服务 的 好 候选 者 。 


10.1.4 检测 图 中 的 环 


有 一 个 简单 算法 可 以 检测 有 向 图 是 否 有 环 。 这 一 算法 首先 观察 有 向 图 是 否 不 含有 宿 顶 
点 ， 且 它 至 少 有 一 条 边 ， 然 后 看 是 否 任何 路 径 能 任意 延伸 。 如 果 没 有 任何 宿 顶 点 ， 路 径 的 终 
结 结 点 总 是 与 另 一 结 点 相连 接 ， 因 此 该 路 径 能 够 通过 追加 那 一 结 点 得 到 延伸 。 类 似 地 ， 如 果 
该 图 没有 源 结 点 ， 那 么 我 们 总 是 能 够 在 路 径 开 头 添加 一 个 结 点 。 一 旦 路 径 包 含 比 图 中 结 点 更 
多 的 结 点 ， 我 们 就 知道 该 路 径 一 定 至 少 两 次 访问 了 一 个 结 点 ， 把 这 一 结 点 称 为 X。 该 路 径 中 
在 第 一 个 X 和 第 二 个 X 之 间 的 那 部 分 路 径 是 一 个 环 ， 因 此 该 图 是 循环 的 。 

现在 考虑 当 图 具有 一 个 或 更 多 源 结 点 和 一 个 或 更 多 宿 结 点 的 情形 。 很 显然 ， 源 结 点 和 宿 
结 点 不 可 能 是 环 的 一 部 分 ， 从 图 中 移 除 源 结 点 和 宿 结 点 ， 连 同 它们 所 有 的 边 ， 并 不 会 影响 该 
图 是 否 循环 。 如 果 这 样 得 到 的 图 不 具有 宿 结 点 或 不 具有 源 结 点 ， 那 么 它 包 含 一 个 环 ， 就 像 上 
面 已 经 讲 到 的 。 重 复 移 除 宿 结 点 、 源 结 点 及 其 边 的 过 程 ， 直 到 出 现下 列 情况 之 一 ; 

。 没 有 更 多 的 边 或 没有 更 多 结 点 留 下 。 在 这 种 情况 下 ， 该 图 没有 环 ; 

。 一 些 边 保留 下 来 但 没有 源 结 点 或 宿 结 点 。 在 这 种 情况 下 ， 该 图 是 循环 的 。 

如 果 没 有 环 ， 那 么 该 图 被 称 为 一 个 非 循 环 图 (acyclic graph)。 这 些 图 对 于 描述 事物 之 间 
的 依赖 性 或 单 向 关系 是 有 用 的 。 例 如 ， 不 同 产品 常常 属于 能 够 被 非 循环 图 表示 的 藤 套 分 层 
(nested hierarchy); 在 第 6 章 中 描述 的 决策 树 是 另 一 个 例子 。 

在 一 个 非 循环 图 中 ， 任 意 两 个 结 点 相互 之 间 具 有 明确 的 先后 关系 。 如 果 在 某 些 包含 A 
和 也 二 者 的 路 径 中 ， 结 点 A 先 于 结 点 刀 ， 那 么 在 包含 A 和 了 二 者 的 所 有 路 径 中 A 都 将 先 于 
B (否则 可 能 是 一 个 环 )。 在 这 种 情形 下 ， 我 们 说 A 是 也 的 前 继 (predecessor)，B 是 A 的 后 
继 〈successor) 。 如 果 没 有 包含 A 和 也 二 者 的 路 径 ， 那 么 A 和 也 不 相交 。 这 一 严格 次 序 可 能 
是 这 些 结 点 的 重要 属性 ， 有 时 对 于 数据 挖掘 目的 是 有 用 的 。 


10.2 ”链接 分 析 的 一 个 熟悉 的 应 用 
本 书 的 多 数 读者 大 概 都 用 过 Google 搜索 引擎 ， 它 的 高 度 普 及 源 于 它 可 以 帮助 人 们 找到 
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几乎 关于 任何 主题 的 资料 的 能 力 ， 这 种 功能 是 通过 链接 分 析 完 成 的 。 

万 维 网 是 一 个 巨大 的 有 向 图 。 结 点 是 网 页 ， 边 是 页 面 之 间 的 超 链 接 。 称 为 Spider 或 网 
络 搜索 器 (web crawler) 的 特殊 程序 不 断 地 人 遍历 这 些 链接 ， 更 新 网 站 这 一 巨大 的 有 向 图 。 这 
些 Spider 中 有 些 只 是 简单 地 索引 网 页 内 容 以 备 基于 纯 文 本 的 搜索 引擎 使 用 ， 而 另 一 些 则 把 
网 站 的 总 体 结构 记录 为 能 够 用 于 分 析 的 有 向 图 。 

从 前 ， 搜 索引 警 只 分 析 这 个 图 的 结 点 ,来自 查询 的 文本 与 来 自 网 页 的 文本 通过 使 用 类 似 
第 8 章 描述 的 技术 进行 比较 。Google 的 方法 〈 现 在 已 经 被 其 他 搜索 引擎 采用 ) 是 不 仅 利用 结 
点 中 发 现 的 信息 ， 还 利用 编码 于 图 的 边 中 的 信息 。 


10.2.1 Kleinberg 算法 


一 些 网 站 或 期 刊 文章 可 能 比 其 他 一 些 形式 更 有 趣 ， 即 便 它 们 针对 的 是 同一 个 主题 。 这 个 
简单 的 想法 很 容易 领会 ， 但 要 向 计算 机 解释 却 很 困难 ， 因 此 ， 当 就 许多 人 写 到 的 一 个 主题 进 
行 搜索 时 ， 很 难 在 满足 搜索 条 件 的 巨大 集合 中 找到 最 有 用 或 最 权威 的 文档 。 

Cornell 大 学 的 Jon Kleinberg 教授 提出 了 解决 这 个 问题 的 一 项 广泛 采用 的 技术 ， 他 的 方 
法 利用 了 这 样 的 观点 : 在 创建 从 一 个 站 点 到 另 一 个 站 点 的 链接 中 ， 人 类 会 对 被 链接 到 的 站 点 
的 价值 做 出 判断 ， 到 另 一 个 站 点 的 每 个 链接 实际 上 是 对 那个 站 点 的 推荐 。 这 样 累 积 起 来 ， 所 
有 决定 链接 到 相同 目标 的 许多 网 站 设计 者 的 独立 判断 就 是 在 对 那个 目标 授予 权威 性 。 此 外 ， 
做 出 链接 的 站 点 的 可 靠 性 可 以 由 它们 链接 到 的 站 点 的 权威 性 来 判断 。 在 决定 另 一 个 站 点 的 权 
威 性 时 ， 具 有 许多 其 他 好 的 推荐 的 站 点 给 出 的 推荐 能 够 被 财 予 更 多 的 权重 。 

在 Kleinberg 的 术语 中 ， 链 接 到 许多 权威 的 页 面 是 网 络 中 心 (hub); 被 许多 网 络 中 心 链 
接 的 页 面 是 权威 (authority) ， 这 些 思想 以 图 10-7 说 明 。 这 两 个 概念 可 以 结合 起 来 使 用 ， 以 
分 辩 “ 权 威 ” 和 “仅仅 是 流行 ”之 间 的 区 别 。 初 看 起 来 ， 好 像 发现 权 威 网 站 的 一 个 好 方法 是 
按照 无 关 站 点 链接 到 它们 的 数目 对 站 点 进行 分 级 。 但 这 一 方法 存在 的 问题 是 ， 任 何 时 候 ， 当 
该 主题 被 一 个 流行 的 站 点 〈 一 个 具有 许多 人 站 链接 的 站 点 ) 提 及 ， 即 使 是 被 顺便 提 及 ， 该 网 
站 的 权威 就 会 比 另 一 个 关于 特定 主题 而 较 不 流行 的 更 权威 的 站 点 等 级 更 高 。 解 决 的 办 法 是 将 
页 面 分 级 ， 分 级 依据 不 是 按照 指向 它们 的 链接 总 数 ， 而 是 按照 指向 它们 的 主题 相关 的 网 络 中 
心 的 数目 。Google.com 使 用 了 这 里 描述 的 基本 Kleinberg 算法 的 一 个 改良 和 增强 的 版 本 。 

基于 链接 分 析 的 搜索 从 一 个 基于 常规 文本 的 搜索 开始 ， 这 一 初始 搜索 提供 一 个 页 面 池 
(常常 有 两 百 多 个 页 面 )， 用 它 开 始 这 个 过 程 。 很 可 能 这 一 搜索 返回 的 文档 集 并 不 包括 读者 将 
判断 为 关于 该 主题 的 最 权威 来 源 的 文档 ， 这 是 因为 关于 一 个 主题 的 最 权威 来 源 未 必 最 常 使 用 
搜索 字符 串 中 的 词 。Kleinberg 使 用 了 一 个 用 关键 字 “Harvard” 搜 索 的 例子 ， 多 数 人 承认 
www.harvard,edu 是 关于 这 一 主题 的 最 权威 站 点 之 一 ， 但 在 基于 纯 内 容 的 分 析 时 ， 它 在 一 百 
多 万 个 包含 词语 “Harvard” 的 网 页 中 并 不 突出 ， 因 此 非常 可 能 的 情况 是 :基于 文本 的 搜索 
将 不 会 在 其 结果 的 前 几 位 返回 该 大 学 自己 的 网 站 。 但 很 有 可 能 的 是 ,至 少 返 回 的 一 些 文档 将 
包含 一 个 到 哈佛 大 学 主页 的 链接 ; 或 者 如 果 没 有 这 种 链接 的 话 ， 指 向 页 面 池 之 一 的 一 些 页 面 
也 将 指向 www.harvard.edu。 

Kleinberg 算法 的 一 个 本 质 特 征 是 ， 它 不 是 简单 地 采纳 初始 的 基于 文本 搜索 返回 的 页 面 
并 试图 对 它们 分 级 ， 而 是 使 用 它们 构造 大 得 多 的 由 根 集合 中 的 任何 文档 指向 或 被 指向 的 文档 
池 。 这 个 更 大 的 池 包 含 了 更 多 的 全 局 结构 一 -能 够 被 挖掘 以 确定 哪些 文档 被 那些 创建 池 中 文 
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档 的 人 们 组 成 的 广泛 社团 认为 是 最 权威 的 结构 。 
10.2.2 细节 :; 查找 网 络 中 心 和 权威 


识别 权威 来 源 的 Kleinberg 算法 有 三 个 阶段 ; 

1) 创建 根 集合 。 

2) 识别 候选 者 。 

3) 对 网 络 中 心 和 权威 分 级 。 

在 第 一 个 阶段 ， 使 用 基于 文本 的 搜索 引擎 查找 包含 搜索 字符 串 的 页 面 以 形成 页 面 的 根 集 
合 。 在 第 二 个 阶段 ， 这 一 根 集合 扩大 为 包括 被 根 集合 中 文档 指向 或 被 指向 的 文档 ， 这 一 扩展 
集合 包含 候选 者 。 在 第 三 个 阶段 ， 这 个 过 程 是 迭代 的 ， 候 选 者 被 依照 它们 的 强度 分 级 为 网 络 
中 心 (链接 至 许多 权威 文档 的 文档 ) 和 权威 (有 来 自 许 多 权威 网 络 中 心 的 链接 的 页 面 )。 

1. 创建 根 集合 

文档 的 根 集合 是 使 用 基于 内 容 的 搜索 生成 的 。 作 为 第 一 个 步骤 ， 无 用 词 〈 常 用 词汇 诸如 
“a 、 “an"、“the” 等 ) 被 从 提供 的 初始 搜索 字符 串 中 去 掉 。 然 后 ， 依 据 所 使 用 的 特定 的 基 
于 内 容 的 搜索 策略 ， 剩 余 的 搜索 条 件 可 能 经 历 词 千 化 〈stemming)。 词 于 化 通过 移 除 复数 形 
式 和 用 于 动词 的 各 个 变化 形式 、 名 词 格 变化 等 的 其 他 词尾 ， 把 词语 精简 为 它们 的 根 形 式 。 然 
后 ， 搜 索 网 络 索 引 以 查找 包含 搜索 字符 串 中 词语 的 文档 。 在 如 何 评价 匹配 的 细节 上 有 许多 变 
化 ， 这 是 为 什么 在 两 个 基于 文本 的 搜索 引擎 上 执行 相同 的 搜索 产生 不 同 结果 的 一 个 原因 。 无 
论 如 何 ， 在 文档 中 匹配 术语 的 数目 、 被 匹配 术语 的 稀少 程度 和 提 到 搜索 术语 的 次 数 ， 这 些 项 
的 组 合 被 用 于 给 索引 文档 一 个 确定 其 关于 查询 的 等 级 的 分 数 。 前 ”个 文档 用 于 建立 根 集合 ， 
典型 的 ” 值 是 200。 

2. 识别 候选 者 

在 第 二 个 阶段 ， 根 集合 被 扩大 为 创建 候选 者 的 集合 。 候 选 者 集合 包括 在 根 集合 中 链接 至 
任何 网 页 的 所 有 网 页 ， 加 上 一 个 链接 至 根 集合 中 任意 页 面 的 子 集 。 如 果 网 络 的 全 局 结构 作为 
一 个 有 向 图 是 可 用 的 ， 那 么 查找 链接 至 特定 目标 页 的 页 面 很 简单 ， 同 样 的 任务 也 能 通过 使 用 
目标 页 面 的 URL 作为 搜索 字符 串 进行 基于 索引 的 文本 搜索 来 完成 。 

仅仅 使 用 链接 至 根 集合 中 每 一 个 页 面 的 一 个 页 面子 集 的 原因 是 ， 防 止 根 集合 中 的 极端 流 
行 网 站 引发 难以 控制 的 页 面 数目 的 情况 发 生 。 还 有 一 个 参数 4 可 以 限制 可 能 被 根 集合 的 任 
何 单个 成 员 引 入 候选 者 集合 的 页 面 的 数目 。 

如 果 有 多 于 dz 个 文档 链接 至 根 集合 中 的 一 个 特定 文档 ， 那 么 4d 个 文档 的 一 个 随机 子 集 
被 引信 候选 者 集合 ，d 的 典型 值 是 S0。 候 选 者 集合 通常 将 最 多 包含 1000 到 5000 个 文档 。 

基本 算法 能 够 用 多 种 方式 改进 。 例 如 ， 一 种 可 能 的 改进 是 筛选 出 来 自 同一 个 域内 的 任何 
链接 ， 它 们 中 许多 可 能 是 纯粹 导航 性 的 。 另 一 个 改进 是 允许 根 集合 中 的 文档 从 同一 站 点 至 多 
引入 7 个 页 面 。 这 是 为 了 避免 被 一 个 站 点 的 所 有 页 面 之 间 的 “合谋 ”cokHusion) 所 思 弄 ， 
例如 ， 网 站 设计 者 在 每 一 页 面 上 用 “本 站 设计 者 为 ”的 链接 以 广告 该 站 点 的 情况 。 

3. 对 网 络 中 心 和 权威 分 级 

最 后 一 个 阶段 是 把 候选 页 面 划 分 为 网 络 中 心 和 权威 ， 并 依照 它们 在 那些 角色 中 的 强度 分 
级 。 这 ~- 过 程 也 同时 有 把 以 下 类 型 的 页 面 分 到 一 组 的 作用 一 一 页 面 涉及 到 搜索 项 的 相同 内 涵 
但 有 多 种 意义 一 例如 ， 播 滚 歌星 麦当娜 与 艺术 史 中 的 圣母 和 圣 婴 〈(Madonna and Child) ， 
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或 者 美洲 虎 (Jaguar) 汽车 与 真 的 大 猪 一 样 的 美洲 虎 等 。 它 也 能 区 分 出 感 兴趣 主题 的 权威 和 
一 般 而 言 流 行 的 网 站 的 差别 : 恰当 主题 的 权威 页 面 不 仅 被 许多 页 面 所 链接 ， 它 们 趋向 于 被 同 
祥 的 页 面 所 链接 ， 正 是 这 样 一 些 网 络 中 心 页 面 把 权威 结合 在 一 起 ， 使 之 有 别 于 无 关 但 流行 的 
页 面 。 图 10-7 阐明 了 网 络 中 心 、 权 威 和 无 关 流 行 页 面 之 间 的 区 别 。 


网 络 中 心 权威 流行 站 点 


图 10-7 ”Google 使 用 链接 分 析 来 区 分 网 络 中 心 、 权 威 和 流行 网 页 


网 络 中 心 和 权威 具有 相互 加 强 关 系 。 一 个 强大 的 网 络 中 心 链接 至 许多 强大 的 权威 ， 一 个 
强大 的 权威 也 被 许多 强大 的 网 络 中 心 所 链接 。 算 法 因此 重复 进行 ， 首 先 基于 链接 到 它们 的 网 
络 中 心 的 强度 调整 权威 的 强度 ， 然 后 基于 它们 链接 到 的 权威 的 强度 调整 网 络 中 心 的 强度 。 

对 每 个 页 面 ， 有 一 个 值 4 测量 其 作为 权威 的 强度 , 值 妃 测 量 其 作为 网 络 中 心 的 强度 ， 
对 所 有 页 面 这 两 个 值 都 被 初始 化 为 1。 然 后 ， 通 过 把 所 有 链接 到 它们 的 页 面 的 瓦 值 求 和 来 
更 新 每 个 页 面 的 4 值 。 然 后 每 个 页 面 的 A 值 被 归 一 化 以 便 它 们 的 平方 和 等 于 1。 然 后 ， 克 
值 以 同样 的 方式 被 更 新 。 每 个 页 面 的 互 值 被 设 定 为 它 链接 圣 页 面 的 A 值 之 和 ， 新 的 互 值 被 归 
一 化 以 便 它 们 的 平方 和 等 于 1。 这 一 过 程 被 重复 直到 4 和 互 值 的 一 个 均衡 集合 出 现 。 最 终 ， 
具有 最 高 王 值 的 页 面 是 最 强大 的 网 络 中 心 ， 而 那些 有 最 强 A 值 的 页 面 是 最 强大 的 权威 。 

链接 分 析 的 这 一 应 用 返回 的 权威 往往 是 搜索 字符 串 的 某 个 特定 含义 的 强大 例子 。 关 于 有 
争议 的 主题 ， 诸 如 “同性 恋 结婚 ” 或 “台独 ”的 搜索 在 正 反 两 方面 都 产生 强大 的 权威 ， 因 为 
网 络 的 全 局 结构 包括 了 一 些 紧密 联系 的 子 图 ， 这 些 子 图 代表 的 是 具有 相似 思想 的 作者 所 拥护 
的 文档 。 


10.2.3 实践 中 的 网 络 中 心 和 权威 


关于 把 链接 分 析 加 入 到 基于 文本 的 搜索 的 好 处 ， 一 个 最 强大 案例 来 自 于 市 场 方面 。 
Google， 一 个 由 斯 坦 福 大 学 的 Sergey Brin 和 Lawence Page 开发 的 搜索 引擎 ， 使 用 一 种 非常 
相似 于 Kleinberg 的 方法 ， 是 最 早 利 用 链接 分 析 查 找 网 络 中 心 和 权威 的 主要 搜索 引擎 。 它 很 
快 超越 了 长 期 确立 的 搜索 服务 ， 诸 如 Altavista 和 雅虎 ， 原因 是 从 质量 方面 看 ， 它 的 搜索 效 
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果 更 好 。 

2001 年 4 月 ， 当 我 们 研究 来 自 本 公司 站 点 www.data-miners.com 的 网 络 日 志 时 ， 注 意 
到 了 Google 返回 结果 的 一 些 特别 之 处 : 当时 ， 行 业 调 查 者 对 网 页 搜索 给 了 Google 和 
AltaVista 大 约 相等 的 10% 的 市 场 份额 ， 然 而 Google 结果 中 对 我 们 站 点 的 引用 占 30% 而 AltaVista 
只 占 3% 。 这 显然 是 因为 Google 更 能 够 把 我 们 的 站 点 识别 为 一 个 数据 挖掘 咨询 的 权威 ， 因 为 它 
较 少 被 那些 虽然 使 用 “数据 挖掘 ”短语 但 实际 与 该 主题 毫 不 相干 的 大 量 站 点 所 迷惑 。 


10.3 ”案例 研究 ; 谁 在 家 中 使 用 传真 机 


图 也 可 以 用 在 来 自 其 他 行业 的 数据 中 ， 移 动 电话 、 市 话 和 长 途 电话 服务 提供 商 拥 有 其 客 
户 打出 和 收 到 的 每 个 电话 呼叫 的 记录 ， 这 些 数据 包含 关于 其 客户 行为 的 大 量 信息 : 他 们 何 时 
发 出 呼叫 ， 谁 呼叫 他 们 ， 他 们 是 否 从 其 电话 套餐 中 受益 ， 以 上 仅仅 是 几 个 例子 。 如 同 这 一 案 
例 分 析 所 示 ， 链 接 分 析 能 够 被 用 于 分 析 市 话 呼叫 记录 以 便 识 别 哪 些 住宅 客户 具有 在 家 中 拥有 
传真 机 的 较 高 概率 。 


10.3.1 为 什么 发 现 传真 机 是 有 用 的 


知道 谁 拥有 传真 机 有 什么 用 处 ? 一 个 电话 运营 商 如 何 按照 这 一 信息 采取 行动 ? 在 这 一 案 
例 中 ， 提 供 商 已 经 对 在 家 工作 的 客户 开发 了 一 个 服务 包 ， 针 对 营销 目的 瞄准 这 样 的 客户 在 该 
公司 是 革命 性 的 概念 。 在 不 久 以 前 还 严格 管制 的 市 话 市 场 中 ， 本 地 服务 提供 者 损失 了 来 自在 
家 工作 客户 的 收入 ， 因 为 这 些 客户 本 该 支付 更 高 的 商业 费 率 而 不 是 较 低 的 住宅 费 率 ， 因 此 市 
话 运营 商 几乎 不 会 去 瞄准 这 样 的 客户 开展 市 场 营 销 活动 ， 反 而 可 能 会 拒绝 给 这 样 的 客户 住宅 费 
率 一 一 因为 它们 的 行为 像 小 商业 企业 而 惩罚 他 们 。 对 于 这 个 公司 来 说 ， 开 发 和 销售 在 家 工作 服 
务 包 代表 一 项 客户 服务 的 新 尝试 ， 但 仍 存在 一 个 问题 : 这 项 新 的 服务 包 应 当 瞄 准 哪 些 客户 ? 

有 许多 方法 可 以 定义 客户 的 目标 集合 ， 该 公司 可 以 有 效 地 使 用 地 区 人 口 统计 学 数据 
(neighborhood demographics) 、 家 庭 调查 、 按 邮政 编码 估计 的 计算 机 拥有 量 以 及 类 似 的 数据 。 
尽管 这 一 数据 改善 了 市 场 群 体 的 定义 ， 但 离 识 别 具 有 特定 需求 的 单个 客户 的 要 求 仍然 很 远 。 
本 书 的 作者 之 一 曾经 所 在 的 一 个 小 组 提出 ， 发 现 住宅 传真 机 使 用 的 能 力 将 改善 这 一 市 场 营销 
工作 ， 因 为 传真 机 常常 〈 但 不 总 是 ) 用 于 商业 目的 。 了 解 谁 使 用 传真 机 将 帮助 把 在 家 工作 服 
务 包 定 位 到 一 个 很 明确 的 市 场 群体 ， 与 使 用 基于 统计 学 属性 的 精确 性 较 差 的 分 段 技 术 所 定义 
的 群体 相 比 ， 这 个 群体 应 当 具 有 更 好 的 响应 率 。 

拥有 传真 机 的 客户 也 提供 了 其 他 机 会 。 发 送 和 接收 传真 的 客户 应 当 至 少 有 两 条 线路 一 一 
如 果 他 们 只 有 一 条 ， 就 有 机 会 卖 给 他 们 第 二 条 线路 。 为 了 提供 更 好 的 客户 服务 ， 在 一 条 有 呼 
叫 等 待 服务 的 线路 上 使 用 传真 的 客户 应 当知 道 如 何 关 掉 呼 叫 等 待 ， 以 避免 传真 传送 过 程 中 的 
中 断 。 也 有 另外 的 可 能 性 : 也 许 传真 机 的 拥有 者 更 喜欢 通过 传真 而 不 是 邮寄 接收 他 们 的 每 月 
账单 ， 这 样 不 仅 节省 邮寄 费用 也 节省 打印 费用 。 简 而 言 之 ， 能 够 识别 谁 在 家 中 发 送 或 接收 传 
真是 有 价值 的 信息 ， 它 提供 了 增加 收入 、 减 少 成 本 和 增加 客户 满意 度 的 机 会 。 


10.3.2 用 数据 画图 


用 于 这 一 分 析 的 原始 数据 由 某 些 选 定 字段 组 成 ， 它 们 来 自流 和 人 账 单 系统 以 生成 月 度 账单 
的 呼叫 明细 数据 。 每 条 记录 包含 80 字 节 的 数据 ， 其 中 含有 这 样 的 信息 
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。 发 起 呼叫 的 10 位 数字 电话 号 码 ， 三 位 代表 区 号 ， 三 位 代表 电话 局 ， 四 位 代表 线路 

。 线 路 呼叫 目标 的 10 位 数字 的 电话 号 码 

。 为 该 呼叫 支付 账单 的 线路 的 10 位 数字 电话 号 码 

。 呼 叫 的 日 期 和 时 间 

。 呼 叫 持 续 时 间 

。 呼 叫 处 于 每 周 的 第 几 天 

。 该 呼叫 是 否 位 于 投 币 式 公用 电话 

在 图 10-8 中 ， 数 据 被 缩减 至 只 有 三 个 字段 : 持续 时 间 、 始 发 号 码 和 终端 号 码 。 电 话 号 
码 是 该 图 的 结 点 ， 呼 叫 本 身 是 边 ， 按 该 呼叫 的 持续 时 间 加 入 权重 ， 电 话 呼叫 的 一 个 样本 如 


表 10-1 所 示 。 
全 07 
CO 
CO 
GBF 00:00: 一 一 人 人) 
000 
图 10-8 五 个 呼叫 把 七 个 电话 号 码 链接 在 一 起 
表 10-1 五 个 电话 呼叫 
ID 主 叫 号 码 被 叫 号 码 持续 时 间 
1 3S3 - 36S8 3S0 一 9166 00:00:41 
2 353 -3068 330 ~- $166 00:00:23 
3 35S3 一 4271 333 - 3068 00:00:01 
4 3S3 一 3108 SS5 一 1212 00:00.:42 
5 353 -- 3108 350 一 6595S 00:01:22 
10.3.3 方法 


查找 传真 机 是 基于 一 个 简单 的 观察 : 传真 机 倾向 于 呼叫 其 他 的 传真 机 。 按 照 从 已 知 号 码 
发 出 或 收 到 的 呼叫 为 基础 ， 已 知 传真 导 码 的 集合 能 够 被 扩展 : 如 果 一 个 未 分 类 的 电话 号 码 呼叫 
已 知 传真 号 码 并且 不 很 快 挂 断 ， 那 么 有 证 据说 明 它 可 能 被 分 类 为 传真 号 码 。 将 这 一 简单 的 特征 
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作为 指导 是 很 好 的 ， 但 它 过 于 简化 。 对 住宅 客户 实际 上 有 几 种 类 型 的 可 预期 传真 机 用 法 : 

。 传 真 专用 线 。 传 真 机 的 专用 线路 ， 该 线路 只 用 于 传真 通信 。 

。 共 享 线 。 传 真 机 与 语音 呼叫 共享 的 线路 。 

。 数据 线 。 传 真 机 的 数据 专用 线路 ， 或 者 经 由 传真 或 者 经 由 计算 机 调制 解 调 器 。 

提示 ， 特征 化 预期 行为 是 开始 任何 定向 数据 挖掘 问题 的 一 个 好 方法 。 问 题 理 解 得 越 

好 ， 结 果 可 能 越 好 。 

传真 机 呼叫 其 他 传真 机 的 假定 对 于 在 专用 线路 上 的 机 器 通常 是 正确 的 ， 尽 管 拨 错 号 码 是 
这 一 规则 的 例外 。 为 了 把 共享 线路 区 分 为 专用 线路 或 数据 线路 ， 我 们 假定 任何 呼叫 信息 台 
411 或 555-1212 (〈 查 号 辅助 服务 ) 的 号 码 是 用 于 语音 通信 的 ， 因 此 是 一 个 语音 线路 或 共享 传 
真 线路 。 例 如 ， 样 本 数据 中 的 第 4 号 呼叫 包含 一 个 到 555-1212 的 呼叫 ， 表 示 该 呼叫 号 码 可 
能 是 一 条 共享 线路 或 仅仅 是 语音 线路 。 当 共享 线路 呼叫 其 他 号 码 时 ， 没 有 办 法 知道 该 呼叫 是 
语音 还 是 数据 ， 我 们 不 能 根据 到 达 或 来 自 呼叫 图 中 这 种 结 点 的 呼叫 来 识别 传真 机 。 但 从 另 一 
方面 考虑 ， 这 些 共享 线路 确实 代表 了 一 个 销售 额外 线路 的 市 场 营 销 机 会 。 

用 于 查找 传真 机 的 过 程 由 下 列 步骤 组 成 ， 

1) 从 一 组 已 知 传真 机 开始 〈 从 黄页 上 收集 得 到 ) ， 确 定 一 个 传真 机 集合 。 

2) 确定 那些 向 或 从 这 一 集合 中 的 任何 号 码 发 起 或 接收 呼叫 且 持 续 时 间 大 于 10 秒 钟 的 所 
有 号 码 ， 这 些 号 码 是 候选 者 。 

*。 如 果 该 候选 号 码 呼 叫 过 411、555 - 1212 或 者 一 个 识别 为 共享 传真 号 码 的 号 码 ， 那 么 

它 被 包括 到 共享 语音 /传真 号 码 集合 中 。 

。 否 则 ， 它 被 包括 到 已 知 传真 机 集合 中 。 

3) 重复 步骤 1 和 2 直到 没有 更 多 号 码 被 识别 。 

这 项 工作 面临 的 一 个 挑战 是 识别 拨 错 的 号 码 。 特 别 是 ， 到 一 个 传真 机 的 呼 人 有 时 可 能 代 
表 拨 错 号 码 ， 没 有 给 出 始 发 号 码 的 任何 信息 (实际 上 ， 如 果 它 是 一 个 错 拨 号 码 那么 它 多 半 是 
一 条 语音 线路 ) 。 我 们 假定 这 样 的 呼 人 错 号 将 持续 很 短 的 时 间 ， 就 像 第 3 号 呼叫 的 情形 那样 。 
在 一 个 更 大 规模 的 传真 机 分 析 中 ， 排 除 其 他 例外 将 是 有 用 的 ， 诸 如 呼出 错 号 和 调制 解 调 器 / 
传真 机 用 途 。 

该 过 程 始 于 一 个 初始 传真 号 码 集合 。 因 为 这 是 一 个 演示 项 目 ， 几 个 传真 号 码 是 从 黄页 上 
根据 号 码 旁 边 的 “传真 ”注解 手工 收集 的 。 对 一 个 更 大 规模 的 项 目 ， 所 有 传真 号 码 可 能 从 用 
于 生成 黄页 的 数据 库 中 检索 得 到 ， 这 些 号 码 只 是 传真 机 电话 号 码 列表 的 起 始 、 种 子 。 尽 管 广 
告 其 传真 号 码 对 于 商业 很 普遍 ， 但 这 对 于 家 庭 中 的 传真 机 就 不 是 那么 普遍 了 。 


10.3.4 一 些 结果 


电话 记录 样本 由 19 674 个 家 庭 一 个 月 内 的 3 011 819 个 电话 旦 叫 组 成 。 在 电话 研究 领域 
中 ， 这 是 一 个 非常 小 的 抽样 数据 ， 但 它 足 以 演示 链接 分 析 的 力量 。 该 分 析 使 用 特定 的 C++ 
代码 执行 ， 这 种 代码 存储 呼叫 明细 ， 并 允许 我 们 有 效 地 扩展 传真 机 列表 。 

查找 传真 机 是 图 着 色 算 法 (graph-coloring algorithm) 的 一 个 例子 。 这 一 类 型 的 算法 饥 
历 该 图 并 用 不 同 “颜色 ”标记 结 点 。 在 这 一 案例 中 ， 颜 色 是 “传真 "、“ 共 享 ”"、“ 语 音 ” 和 
“未 知 ” 而 不 是 红 、 绿 、 黄 和 蓝 。 最 初 ， 除 了 初始 集合 中 一 些 标记 为 “传真 ”之 外 ， 所 有 结 
点 是 “未 知 ”。 随 着 算法 的 进行 ， 越 来 越 多 带 有 “未 知 ” 标 记 的 结 点 被 赋予 更 多 信息 的 标记 。 
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图 10-9 显示 了 一 个 具有 15 个 号 码 和 19 个 呼叫 的 呼叫 图 ， 边 上 的 权重 是 每 个 电话 按 秒 
计 的 持续 时 间 ， 对 于 某 个 特定 号 码 其 实 什么 都 不 知道 。 


GD 
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局 
SS 
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图 10-9 一 个 有 15 个 号 码 和 19 个 呼叫 的 呼叫 图 


图 10-10 显示 了 算法 是 如 何 进 行 的 。 首 先 ， 已 知 是 传真 机 的 号 码 被 标记 为 “F"”， 查 号 畏 
助 号 码 被 标记 为 “IT ， 代 表 持续 时 间 少 于 10 秒 的 呼叫 的 任何 边 都 被 略 掉 。 该 算法 通过 利用 
一 个 和 迭代 过 程 对 每 一 结 点 指派 标记 给 图 着 色 : ， 


必 这 是 初始 呼叫 图 ， 短 时 间 
四 Cu) 呼叫 已 删除 ， 结 点 被 标记 

为 “传真 (F)”、“ 未 知 

(U)” 和 “信息 (ID ”。 
连接 初始 传真 机 的 结 点 被 


分 派 “传真 (F)” 标 记 。 
那些 连接 到 “信息 〈(D” 
的 结 点 被 分 派 “ 语 音 
(V)” 标记。 
那些 与 三 者 都 相连 的 ， 
是 “共享 (S) 。 

剩余 的 是 “未 知 (U) 。 


图 10-10 ”对 呼叫 图 应 用 着 色 算法 显示 出 哪些 号 码 是 传真 号 码 ， 哪 些 是 共享 号 码 
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* 任何 连接 到 “传真 ” 结 点 的 “语音 ” 结 点 被 标记 为 “共享 ”。 
“任何 最 常 连接 到 “传真 ” 结 点 的 “未 知 ” 结 点 被 标记 为 “传真 "。 
这 一 过 程 持续 进行 直到 连接 “传真 ” 结 点 的 所 有 结 点 具有 “传真 ”或 “共享 ”标记 。 


使 用 SQL 对 图 着 色 
尽管 案例 分 析 使 用 特定 的 C++ 代码 对 图 执行 着 色 ， 但 下 列 操作 对 于 存储 在 关系 数据 库 
中 的 数据 也 是 适用 的 。 假 定 有 三 个 表 : call _detail，dedicated _fax 和 shared _fax。 查 找 呼叫 
已 知 传真 号 码 的 查询 是 : 


SELECT originating number 

FROM calli detail 

WERE terminating number IN (SELECT number FROM dedicated _ ftax) 
RND duraticn >>= 10 

GROUP BY originating number; 


类 似 的 查询 能 够 用 于 得 到 由 给 定 传真 号 码 发 起 的 呼叫 。 然 而 ， 这 还 不 能 区 别 专用 传真 线 
路 和 共享 传真 线路 。 要 做 到 这 一 点 ， 我 们 必须 知道 是 否 有 任何 呼叫 是 打 向 信息 合 的。 为 了 提 
高 效率 ， 最 好 是 把 这 一 列表 保存 在 一 个 单独 的 表 或 视图 voice _numbers 中 ， 由 以 下 查询 
确定 : 


SELECT originating number 

FROM cal1 _detail 

WHERE terminating number in ( 5551212 4117) 
GROUP BY originating _number; 


于 是 查找 专用 传真 线路 的 查询 是 : 


SELECT originating _number 
FROM cal1 _detail 
WHERE terminating _number IN (SELECT number FROM dedicated fax) 
AND duratiocn >>9 
RND originatjng _ Dumber NOT IN (SELECT number FROM voice _numbers) 
GROUP BY originating 、number; 


查找 共享 线路 的 查询 是 : 


SELECT originating number 
FROM cal1 _detail 
WHERE terminating _number IN (SELECT number FROM dedicated _ fax) 
RND duration > 2 
AND originating .number IN (SELECT number FROM voice _numbers) 
GROUP BY originating number; 


这 些 SQL 查询 是 想 说 明 这 样 的 问题 : 依据 关系 数据 库 查找 传真 机 是 可 能 的 。 它 们 或 许 
不 是 针对 这 一 目的 的 最 有 效 的 SQL 语句 ， 这 依赖 于 数据 设计 、 数 据 库 引 擎 ， 以 及 它 运 行 在 
什么 硬件 上 。 并 且 ， 如 果 数 据 库 中 有 相当 大 数量 的 呼叫 号 码 ， 用 于 链接 分 析 的 任何 SQL 查 
询 将 需要 在 非常 大 的 表 间 进行 联接 。 
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10.4 案例 研究 : 分 段 移动 电话 客户 


这 一 案例 分 析 把 链接 分 析 应 用 于 移动 电话 呼叫 ， 目 的 是 把 现 有 客户 分 段 ， 以 便 推 销 新 的 
服务 92。 本 节 所 展示 的 类 似 分 析 方 法 曾 被 一 家 主流 移动 电话 运营 商 使 用 ， 应 用 从 该 分 析 中 得 
到 的 结果 对 一 种 新 产品 服务 进行 直接 邮寄 促销 。 对 于 这 样 的 投递 ， 移 动 电话 公司 通常 测 得 的 
响应 率 为 2% 到 3% ， 利 用 这 里 展示 的 一 些 观点 ， 公 司 把 响应 率 提 高 到 15% 以 上 ， 这 是 一 个 
非常 显著 的 改善 。 


10.4.1 数据 


移动 电话 数据 与 前 面 查找 传真 机 的 案例 分 析 中 看 到 的 呼叫 明细 数据 类 似 。 每 一 个 呼叫 有 
一 条 记录 包含 如 下 字段 : 

。 主 叫 号 码 

。 被 叫 号 码 

。 发 起 该 呼叫 的 地 点 

。 发 起 该 呼叫 的 人 的 账户 号 码 

。 呼 叫 持续 时 间 

。 时 间 和 日 期 

尽管 该 分 析 不 使 用 账户 号 码 ， 它 在 这 一 数据 中 仍 扮演 一 个 重要 的 角色 ， 因 为 没有 该 数据 
就 不 能 区 分 商业 账户 还 是 家 庭 账户 。 大 型 商业 账户 有 几 千 个 话机 ， 而 大 多 数 家 庭 账户 只 有 单 
个 话机 。 


10.4.2 不 使 用 图 论 的 分 析 


在 使 用 链接 分 析 之 前 ， 市 场 部 门 曾 使 用 单一 度量 进行 分 段 : 使 用 分 钟 数 (MOU) ， 即 每 
个 月 客户 移动 电话 使 用 的 分 钟 数 。MOU 是 一 个 有 用 的 量 ， 因 为 MOU 和 每 个 月 顾客 支付 的 
账单 金额 直接 相关 。 这 一 相关 是 不 准确 的 ， 因 为 它 没 有 考虑 折扣 时 段 和 夜间 及 周末 免费 呼叫 
计划 ， 尽 管 如 此 ， 它 仍 是 一 个 好 的 向 导 。 

市 场 营销 部 门 对 江 在 客户 也 有 一 些 外 部 的 人 口 统计 学 数据 ， 它 们 也 能 用 于 区 分 个 人 客户 
和 商业 账户 。 然 而 除了 MOU 之 外 ， 他 们 对 客户 行为 仅 有 的 了 解 就 是 支付 的 总 金额 和 客户 是 
否 及 时 支付 账单 ， 他 们 在 表 中 遗弃 了 许多 信息 。 


10.4.3 两 位 客户 的 对 比 


图 10-11 演示 了 在 一 个 普通 月 份 内 两 位 客户 及 其 呼叫 模式 。 这 两 位 客户 具有 相似 的 
MOU， 然 而 模式 却 大 相 径 庭 。 约 翰 的 呼叫 生成 一 个 小 的 、 紧 凑 的 图 ， 而 简 的 呼叫 则 分 解 为 
许多 不 同 的 呼叫 。 如 果 简 非常 喜欢 无 线 服务 ， 她 的 用 量 将 可 能 增长 ， 并 且 她 甚至 可 能 影响 她 
的 许多 朋友 和 同事 转 到 这 家 无 线 提 供 商 。 

更 精密 地 观察 这 两 个 客户 会 揭示 出 重要 的 差异 。 尽 管 约翰 在 车 载 电 话 上 每 个 月 打 到 150 


合 “作者 感谢 同事 Alan Parker、Wiliam Crowder 和 Ravi Basawi 对 本 节 所 做 的 贡献 。 
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至 200 个 MOU， 但 他 的 移动 电话 儿 乎 只 用 在 两 个 用 途上 : 

。 在 下 班 回 家 的 路 上 ， 他 呼叫 妻子 让 她 知道 等 待 时 间 ， 有 时 他 们 聊 三 四 分 钟 ; 

。 每 个 星期 三 早上 ， 在 早 班 通勤 时 间 ， 他 在 车 里 进行 一 个 45 分 钟 的 电话 会 议 。 

惟一 有 约翰 的 车 载 电 话 号 码 的 人 是 他 的 妻子 ， 并 且 当 他 驾车 时 她 很 少 呼 叫 他 。 实 际 上 ， 
约翰 有 恤 一 部 携带 用 于 商业 目的 的 移动 电话 。 在 驾车 时 ， 相 对 于 另 一 部 手提 电话 ， 他 更 喜欢 
车 载 电 话 ， 尽 管 他 的 车 载 电 话 服务 提供 商 并 不 知道 这 一 点 。 


图 10-11 约翰 和 简 具 有 大 约 相同 的 每 月 使 用 分 钟 数 (MOU) ， 
但 他 们 的 行为 非常 不 同 


简 也 在 她 的 移动 电话 上 打 大 约 相同 的 MOU。 她 有 四 个 销售 人 员 整 天 呼叫 她 ， 给 她 汇报 
情况 ， 当 在 车 里 不 能 找到 她 时 ， 他 们 常常 在 她 的 移动 电话 语音 人 
经 理 人 员 、 潜 在 顾客 和 其 他 同事 的 呼叫 ， 但 呼叫 总 是 非常 短 两 分 钟 ， 因 为 通 
全 二 出 风 2 站、 芝 小 丰 业 二 作 二 闻 对 不 关 私有 辣 量 次 同和 直 帮 ， 央 上 几 于 习 伺 ， 生 半 
话 时 间 长 她 会 使 用 国定 电话 。 

现在 ， 如 果 简 和 约翰 都 从 一 个 竞争 者 那里 得 到 一 项 服务 ， 会 出 现 什么 情况 呢 ? 谁 更 可 能 
接受 该 竞争 者 的 服务 〈 对 于 该 无 线 通讯 公司 来 说 ， 是 客户 流失 )? 乍 一 看 ， 我 们 可 能 觉得 简 
对 价格 更 敏感 ， 因 此 更 易 转 向 竞争 者 的 服务 。 然 而 ， 再 仔细 一 想 就 会 发 现 ， 如 果 改 变通 信 公 
司 将 需要 她 改变 其 电话 号 码 ， 这 对 于 简 是 一 个 大 麻烦 。 (在 美国 ， 号 码 可 移植 性 经 历 了 一 个 
长 时 间 的 过 程 ， 它 于 2003 年 11 月 终于 实现 ， 就 在 本 书 这 一 版 出 版 前 不 久 。 这 或 许 会 使 许多 
现 有 的 客户 流失 模型 失效 。) 通过 观察 打 给 她 的 不 同人 的 号 码 ， 我 们 看 到 简 非 常 依赖 于 其 无 
线 电话 号 码 ， 她 使 用 如 语音 信箱 及 在 手机 中 储存 重要 号 码 等 功能 。 如 果 改 变 电 话 号 码 ， 她 不 
得 不 通知 很 多 人 ， 这 一 点 是 她 保持 提供 商 不 变 的 惯性 。 约 翰 不 具有 这 样 的 惯性 ， 并 可 能 对 他 
的 无 线 提供 商 不 具有 忠诚 度 一 一 只 要 竞争 提供 商 能 对 他 星期 三 早上 的 45 分 钟 呼叫 提供 不 中 
其 的 服务 就 可 以 了 。 

简 也 有 许多 影响 。 既 然 她 与 那么 多 不 同 的 人 通话 ， 他 们 都 会 知道 她 对 于 移动 公司 的 服务 
是 否 满意 ， 她 是 一 个 该 移动 电话 公司 希望 保持 满意 的 客户 ， 但 不 是 一 个 传统 分 段 方法 能 够 定 
位 的 客户 。 
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10.4.4 链接 分 析 的 力量 


在 这 一 无 线 电 话 数据 分 析 中 ， 链 接 分 析 扮 演 两 个 角色 。 第 一 是 可 视 化 。 可 以 看 出 ， 某 些 
表示 呼叫 模式 的 图 的 能 力 使 得 像 惯 性 或 影响 等 这 类 事物 的 模式 更 加 显而易见 ， 数 据 可 视 化 可 
帮助 看 到 通 疝 更 深信 问题 的 模式 。 对 于 这 个 例子 ， 我 们 选择 了 早先 的 分 段 技术 认为 相似 的 两 
位 有 利 可 图 的 客户 ， 链 接 分 析 显 示 出 他 们 的 特定 呼叫 模式 ， 并 暗示 客户 是 如 何不 同 。 但 从 另 
一 方面 看 ， 在 同一 时 间 观 察 所 有 客户 的 呼叫 模式 ， 需 要 画 一 个 数 十 万 或 百 万 个 结 点 和 上 亿 条 
边 的 图 。 

第 二 ， 链 接 分 析 能 够 把 通过 可 视 化 生成 的 概念 应 用 于 客户 的 更 大 集合 。 例 如 ， 减 少 客户 
流失 的 计划 可 能 要 避免 瞄准 具有 高 惯性 的 客户 ， 或 者 确保 瞄准 具有 高 影响 的 客户 ， 这 需要 遍 
历 该 呼叫 图 ， 计 算出 所 有 客户 的 惯性 或 影响 ， 这 样 得 到 的 特征 能 够 在 市 场 营销 工作 中 扮演 重 
要 角色 。 

不 同 的 市 场 营销 计划 可 能 会 建议 在 呼叫 图 中 寻找 其 他 特征 ， 例 如 ， 能 够 发 起 电话 会 议 的 
能 力 ， 但 人 谁 将 是 最 佳 潜在 客户 ? 一 种 想法 可 能 是 去 寻找 全 部 互相 呼叫 的 客户 群 组 ， 把 它 作为 
图 问题 表达 出 来 ， 这 一 群 组 是 一 个 完全 连通 子 图 。 在 电话 领域 中 ， 这 些 子 图 被 称 为 “ 感 兴趣 
共同 体 "。 一 个 感 兴趣 共同 体 可 能 代表 一 个 对 召集 电话 会 议 呼 叫 感 兴趣 的 客户 群 组 。 


10.5 小 结 


链接 分 析 是 数学 领域 中 的 图 论 在 数据 挖掘 中 的 一 项 应 用 。 作 为 数据 挖掘 技术 ， 链 接 分 析 
具有 几 种 力量 : 

。 它 利用 了 关系 。 

。 它 对 可 视 化 是 有 用 的 。 

。 它 创建 能 够 用 于 深入 挖掘 的 衍生 特征 。 

一 些 数据 和 数据 挖掘 问题 天 生 包 含 链 接 ， 正 像 关 于 电话 数据 的 两 个 案例 分 析 所 示 ， 链 接 
分 析 对 电信 是 非常 有 用 的 一 一 电话 呼叫 是 两 个 人 之 间 的 链接 。 链 接 分 析 可 明显 用 于 诸如 电 
话 、 运 输 和 万 维 网 等 链接 显而易见 的 领域 ， 当 然 ， 链 接 分 析 也 适 于 不 具有 这 样 清晰 的 连接 的 
其 他 领域 ， 诸 如 医师 咨询 模式 、 零 售 数据 和 犯罪 的 法 庭 分 析 。 

链接 对 于 可 视 化 某 些 类 型 的 数据 是 非常 自然 的 方式 。 链 接 的 直接 可 视 化 对 知识 发 现 有 巨 
大 帮助 。 即 使 自动 化 模式 已 经 存在 ， 链 接 的 可 视 化 也 可 以 帮助 更 好 地 了 解 正 在 发 生 的 情况 。 
链接 分 析 提 供 了 观察 数据 的 另 一 种 方法 ， 它 不 同 于 关系 数据 库 和 联机 分 析 处 理 (OLAP) 工 
具 的 形式 ， 链 接 可 能 暗示 数据 中 的 重要 模式 ， 但 模式 的 意义 需要 由 人 来 解释 。 

链接 分 析 能 够 导致 新 的 和 有 用 的 数据 属性 ， 示 例 包括 对 万 维 网 页 面 计 算 权 威 性 得 分 以 及 
对 电话 用 户 计算 影响 范围 (sphere of influence) 等 。 

尽管 链接 分 析 是 强 有 力 的 ， 但 它 并 不 适用 于 所 有 类 型 的 问题 。 它 不 是 像 神经 网 络 那样 的 
预测 工具 或 分 类 工具 ， 能 够 通过 输入 数据 给 出 答案 ， 许 多 类 型 的 数据 完全 不 适 于 链接 分 析 。 
它 的 最 大 作用 大 概 是 发 现 特定 的 模式 〈 诸 如 呼出 电话 的 类 型 ) ， 然 后 将 这 些 模式 应 用 于 数据 。 
这 些 模式 可 以 被 转换 为 数据 的 新 特征 ， 与 其 他 定向 数据 挖掘 技 术 结 合 使 用 。 
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本 书 中 描述 的 数据 挖掘 技术 是 用 于 寻找 有 意义 的 数据 模式 ， 但 这 种 模式 并 不 总 是 立刻 就 
能 得 到 ， 因 为 有 些 时 候 根 本 找 不 到 模式 ;而 另 一 些 时 候 的 问题 不 是 缺乏 模式 ， 而 是 模式 太 
多 。 这 些 数 据 可 能 包含 很 多 复杂 的 结构 以 至 于 最 佳 数据 挖掘 技术 也 不 能 找 出 有 意义 的 模式 。 
当 挖 掘 这 类 数据 库 以 寻找 特定 问题 的 答案 时 ， 互 相对 立 的 解释 往往 使 彼此 相互 抵消 ， 正 像 接 
收 无 线 电 信和 号 一 样 ， 太 多 相互 竞争 的 信号 到 加 到 一 起 就 变 为 噪音 。 聚 类 提供 了 一 种 获悉 复杂 
数据 结构 的 方法 ， 即 将 竞争 信号 的 杂音 分 解 成 各 自 的 成 份 。 

当 人 类 试图 弄 清 复杂 问题 的 意义 时 ， 往 往 趋 向 于 将 问题 分 解 成 更 小 的 片段 ， 每 一 个 片段 
可 以 更 简单 地 解释 。 如 果 要 求 某 个 人 去 描述 一 片 森林 中 树 的 颜色 ， 那 么 在 落叶 科 树 和 常 绿 科 
树 之 间 ， 在 春 夏 秋冬 四 季 之 间 ， 答 案 可 能 会 大 相 径 庭 。 人 们 对 林地 植物 群落 已 经 有 足够 的 了 
解 ， 可 以 预知 在 所 有 上 百 种 与 森林 相关 的 变量 中 ， 季 节 和 植物 类 型 是 用 于 按照 相似 着 色 规 则 
形成 树 缀 类 的 最 佳 因 素 ， 它 们 比 植物 的 年 龄 和 高 度 等 因素 更 好 。 

一 旦 定义 了 正确 的 聚 类 ， 经 常会 在 各 复 之 间 发 现 简单 的 模式 ， 比 如 “在 冬天 ， 落 叶 树 没 
有 叶子 ， 因 此 树 往往 是 棕色 ”， 或 “落叶 树叶 子 的 颜色 在 秋天 发 生变 化 ， 典 型 的 有 橙色 、 红 
色 和 黄色 "。 在 许多 情况 下 ， 非 常 杂 乱 的 数据 集 实际 上 可 能 由 许多 表现 较 好 的 篮 组 成 ， 问 题 
是 如 何 发 现 它们 。 这 就 是 自动 聚 类 探测 技术 的 用 武之 地 ， 它 可 以 帮助 我 们 看 见 整个 森林 ， 而 
不 是 迷失 在 树丛 中 。 

本 章 首先 从 两 个 有 用 的 聚 类 实例 开始 一 一 其 中 一 个 例子 来 自 于 天 文学 ， 另 一 个 来 自 于 服 
装 设计 ， 然 后 引入 了 开平 均 聚 类 算法 ， 就 像 在 第 8 章 中 讨论 过 的 最 近邻 技术 ，K 平均 聚 类 
算法 依赖 于 数据 的 几何 学 解释 法 。 将 几何 学 观念 应 用 于 K 平均 算法 引出 了 更 普通 的 有 关 测 
量 相 似 性 、 关 联 人 性 和 距离 等 方面 的 主题 ， 这 类 上 距离 测量 对 于 数据 的 表示 方法 相当 敏感 ， 因 此 
下 一 个 主题 讲述 的 是 聚 类 的 数据 准备 ， 需 要 特别 注意 的 是 数据 的 比例 缩放 和 加 权 问 题 。K 平 
均 算 法 不 是 惟一 常用 的 自动 聚 类 探测 算法 ， 本 章 还 对 其 他 凡 种 算法 进行 了 简要 讨论 ， 比 如 高 
斯 混合 模型 、 北 聚 聂 类 和 分 裂 育 类 〈 另 外 一 种 聚 类 技术 ， 也 称 为 自 组 织 映 像 ， 在 第 7 章 中 已 
经 学 过 ， 是 神经 网 络 的 一 种 形式 )。 本 章 最 后 以 一 个 自动 聚 类 探测 案例 结束 ， 其 内 容 是 利用 
自动 聚 类 探测 技术 为 一 家 大 的 日 报 确定 编辑 区 域 。 


11.1 搜索 单纯 岛 状 片段 


在 第 1 章 ， 我 们 把 数据 挖 据 技 术 分 为 定向 或 非 定 向 两 大 类 ， 自 动 聚 类 探测 属于 非 定向 知 
识 发 现 的 工具 ， 从 技术 的 角度 看 情况 确实 如 此 ， 因 为 自动 聚 类 探测 算法 本 身 仅仅 是 发 现存 在 
于 数据 中 的 结构 ， 而 不 考虑 任何 特定 的 目标 变量 。 绝 大 多 数 数 据 挖 据 任 务 是 从 预 分 类 训练 集 
开始 ， 该 训练 集 用 于 建立 模型 ， 对 先前 未 见 过 的 记录 给 出 得 分 或 进行 分 类 。 在 聚 类 过 程 中 ， 
没有 预 分 类 数据 ， 也 没有 独立 和 非 独立 变量 之 区 别 。 相 反 ， 聚 类 算法 搜寻 的 是 记录 的 不 同 分 
组 一 一 即 徐 (由 彼此 间 相 似 的 记录 组 成 )， 该 算法 的 目的 就 是 要 发 现 这些 相 似 性 。 最 后 ， 由 
那些 从 事 分 析 的 人 们 来 确定 相似 记录 是 否 代表 了 对 商业 活动 有 意义 的 东西 一 抑或 是 某 些 无 
法 说 明 的 和 可 能 不 重要 的 东西 。 
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然而 ， 从 广义 角度 上 看 ， 聚 类 过 程 可 以 看 做 一 个 定向 活动 ， 因 为 寻找 复 是 为 了 某 些 商业 
目的 。 在 营销 活动 中 ， 针 对 商业 目的 而 形成 的 篮 通 常 称 为 “片段 ” (segment)， 而 客户 分 片 
(segmentation) 正 是 聚 类 的 一 项 普遍 应 用 。 

自动 聚 类 探测 是 数据 挖 气 技 术 中 很 少 被 单独 使 用 的 技术 ， 因 为 寻找 簇 的 过 程 通常 并 不 是 
数据 挖掘 的 最 终 目标 ， 一 旦 找到 徐 ， 必 须 使 用 其 他 方法 来 解释 该 簇 所 代表 的 意义 。 如 果 缘 类 
是 成 功 的 ， 结 果 可 能 会 非常 富有 戏剧 性 ; 聚 类 探测 的 一 个 著名 的 早期 应 用 导致 了 目前 人 们 对 
恒星 演变 的 认识 。 


11.1.1 星光 与 星 的 亮度 


20 世纪 初期 ， 天 文学 家 试图 了 解 星星 的 发 光度 〈luminosity， 明 亮度 ) 和 温度 之 间 的 关 
系 ， 他 们 制作 了 如 图 11-1 所 示 的 散 点 图 ， 纵 坐标 以 太阳 的 明亮 度 倍数 来 表示 发 光度 ， 横 坐 
标 是 以 开 氏 温标 表示 的 表面 温度 〈 开 氏 温 标的 0 度 称 为 绝对 零度 ， 是 理论 上 可 能 的 最 冷 温 
度 ， 用 摄氏 温标 表示 的 温度 值 等 于 开 氏 温标 值 加 上 273.15)。 
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发 光度 《太阳 
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40 000 20 000 10 000 5 000 2 500 
温度 〈 开 氏 温 诬 ) 
图 11-1 Hertzsprung-Russell 图 利用 温度 和 发 光度 聚 类 星体 


两 位 天 文学 家 ， 娠 麦 的 Enjar Hertzsprung 和 美国 的 Norris Russell 几乎 同时 独立 地 想到 
这 种 方法 。 他 们 都 观察 到 ， 在 结果 的 散 点 图 上 ， 星 星 落 到 了 三 个 簇 中 。 这 一 发 现 引发 了 他 们 
更 进一步 的 工作 ， 并 了 解 到 这 三 个 簇 代 表 了 在 恒星 生存 周期 中 星体 所 处 的 完全 不 同 的 阶段 。 
在 每 个 簇 中 发 光度 和 温度 的 关系 是 一 致 的 ， 但 各 簇 间 的 关系 并 不 相同 ， 因 为 它们 产生 热 和 光 
的 过 程 根 本 不 同 。 落 在 主 序列 上 的 80% 的 星星 是 通过 原子 核 聚 变 由 氢 转 化 为 氨 产 生 能 量 的 ， 
这 就 是 所 有 的 星星 都 要 经 历 的 一 个 活跃 的 周期 。 几 十 亿 年 后 ， 氢 原子 会 消耗 列 尽 ， 依 据 其 质 
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量 的 差异 ， 星 体 或 者 开始 利用 氨 进 行 聚 变 ， 或 者 聚变 就 此 停止 。 在 后 一 种 情况 中 ， 星 星 的 核心 
部 分 就 会 月 溃 ， 这 个 过 程 中 会 产生 大 量 的 热 ， 与 此 同时 ， 外 层 气体 在 远离 核心 处 膨胀 ， 形 成 一 
个 巨大 的 火球 ， 最 终 ， 外 层 气 体 剥 离 ， 残 留 的 星 核 开 始 冷却 ， 星 球 变 成 了 一 个 白色 的 矮星 。 

最 近 在 Google 上 用 短语 “Hertzsprung-Russell Diagram” 进行 搜索 ,返回 了 上 千 页 这 类 
以 聚 类 探测 为 基础 的 当前 天 文学 研究 相关 链接 。 直 到 今天 ， 基 于 HR 图 的 聚 类 仍 被 用 于 搜寻 
褐色 斤 星 〈 像 缺少 足够 的 能 量 产生 聚变 物质 的 星星 ) ， 以 及 用 于 了 解 主 序列 时 期 之 前 的 恒星 
演变 。 


11.1.2 适应 多 维 情况 


Hertzsprung-Russell 图 是 一 个 不 错 的 介绍 聚 类 的 例子 ， 因 为 它 只 有 两 个 变量 ， 很 容易 用 
肉眼 发 现 秘 〈 顺 便 说 一 句 ， 这 个 不 错 的 例子 也 显示 了 好 的 数据 可 视 化 的 重要 性 )。 甚 至 在 三 
维 空间 ， 从 一 个 立体 散 点 图 中 用 肉眼 找 出 能 也 不 是 很 困难 。 如 果 所 有 的 问题 都 只 有 很 少 的 几 
个 维 ， 就 没 必 要 使 用 自动 聚 类 探测 算法 了 。 当 维 〈 即 独立 变量 ) 的 数目 增加 时 ， 发 现 和 能 的 难 
度 开 始 增加 ， 我 们 对 于 事物 相互 之 间 的 相近 程度 的 直觉 在 多 维 情况 下 也 会 迅速 瘫 交 。 

假如 一 个 问题 有 许多 维 数 ， 通 常 暗示 需要 用 几何 学 方式 去 分 析 它 。 所 谓 “ 维 ”就 是 用 于 
描述 某 件 事物 时 需要 独立 测量 的 每 一 个 量 ， 换 句 话 说， 如 果 有 N 个 变量 ， 就 需要 设想 这 样 
一 个 空间 ， 其 中 每 个 变量 的 值 都 代表 N 维 空间 中 沿 相应 轴 的 一 个 距离 ，N 个 变量 中 的 每 一 
个 对 应 于 一 个 值 ， 由 所 有 这 些 值 构成 的 单条 记录 可 以 看 做 一 个 矢量 ， 它 定义 了 该 空间 中 的 某 
个 特定 点 。 当 只 有 两 个 维 时 ， 很 容易 画 出 一 个 图 ，HR 图 就 是 这 样 的 一 个 例子 。 图 11-2 是 另 
一 个 实例 ， 绘 出 的 是 以 一 组 十 几 岁 青少年 的 身高 和 体重 为 点 的 图 ， 注 意 男孩 和 女孩 的 能 。 
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体重 〈( 磅 ) 


图 11-2 ”十 几 岁 青少年 组 的 身高 和 体重 


图 11-2 给 出 了 人 的 体形 的 一 个 粗略 概念 ， 但 如 果 目 的 是 为 了 给 他 们 量体裁衣 ， 就 需要 
更 多 的 度量 。 在 20 世纪 90 年 代 ， 美 国 陆军 委托 他 人 研究 如 何 重新 设计 女 兵 制服 ， 目 的 是 减 
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少 不 同 尺码 制服 的 库存 数目 ， 但 必须 保证 每 个 士兵 都 有 合体 的 制服 。 

正 像 任 何 购买 过 女性 服装 的 人 都 注意 到 的 ， 早 已 存在 纷繁 的 尺码 分 类 系统 (偶数 码 、 奇 
数码 、 加 大 码 、 年 轻 的 、 瘦 身 的 ， 等 等 )， 可 用 于 按照 尺码 分 类 服装 。 但 这 些 系 统 中 没有 一 
个 设计 是 针对 美国 军队 的 需求 ， 科 内 尔 大 学 的 研究 者 Susan Ashdown 和 Beatrix Paal 从 头 开 
始 做 起 ， 她 们 基于 军队 中 女性 的 实际 形体 设计 了 一 套 新 的 尺码 .9 

与 传统 服装 尺码 系统 不 同 ，Ashdown 和 Paal 所 提出 的 尺码 分 级 系统 不 是 规则 地 在 所 有 
维度 上 同时 变化 。 相 反 ， 她 们 提出 的 尺码 可 以 适应 各 种 特定 的 体型 。 每 一 个 体型 对 应 于 人 体 
测量 数据 库 中 一 个 包含 多 条 记录 的 徐 ， 某 个 篮 可 能 由 上 身长 、 平 均 臂 长 、 宽 肩 、 脖 子 极 首 但 
腿 短 、 腰 细 、 胸 阔 的 女性 构成 ， 而 另 一 些 簇 则 由 其 他 的 一 组 测量 数据 组 成 。 

数据 库 中 包含 了 近 3000 个 女性 的 数据 ， 每 人 有 100 多 个 庆 量 字段 。 使 用 的 到 类 技术 就 
是 下 一 节 要 介绍 的 开平 均 算法 〈K-means algorithm)。 最 后 ， 在 100 多 个 度量 数据 中 只 有 人 少 
数 度量 用 于 表征 不 同 的 簇 ， 找 出 这 些 更 少 的 变量 是 聚 类 过 程 的 另 一 个 优点 。 


11.2 K 平均 聚 类 


开平 均 算 法 是 使 用 最 普遍 的 聚 类 算法 之 一 ， 其 名 称 中 的 “K” 指 的 是 算法 寻找 固定 数目 
的 和 能， 这 些 能 按照 数据 点 彼此 相互 接近 的 程度 确定 。 在 这 里 描述 的 版 本 是 最 初 由 本 . B. Mac- 
Queen 在 1967 年 发 表 的 。 为 了 说 明 方便 ， 我 们 把 这 种 技术 以 两 维 空间 图 表示 。 需 要 牢记 的 
是 ， 在 实践 中 ， 这 种 算法 通常 用 于 处 理 多 于 两 个 独立 变量 ， 这 意味 着 ， 图 中 的 点 不 是 对 应 于 
二 元 向 量 《zl，z2)， 而 是 对 应 N 元 向 量 (zl1，zz，…，<zn)。 当 然 ， 处 理 过 程 本 身 没 有 
变化 。 


11.2.1 K 平均 算法 的 三 个 步骤 


第 一 步 ， 算 法 随机 选择 K 个 数据 点 作为 种 子 〈seed) ，MacQueen 的 算法 简单 地 选取 从 前 
面 数 出 的 K 条 记录 ， 在 记录 以 某 种 意义 排序 的 情况 下 ， 可 能 需要 选择 间隔 较 大 的 记录 ， 或 
者 随机 选择 记录 。 每 一 颗 种 子 都 是 仅 含 有 一 个 元 素 的 基 元 簇 ， 在 这 个 例子 中 把 艇 的 数目 设置 
为 3。 

第 二 步 ， 把 每 一 条 记录 分 配给 一 个 最 邻近 的 种 子 ， 方 法 之 一 是 寻找 各 艇 之 间 的 边界 ， 就 
像 图 11-3 中 采用 的 几何 方法 。 两 个 秘 之 间 的 边界 就 是 那些 与 两 个 艇 等 距离 的 点 。 回 顾 一 下 
高 中 几何 课 中 的 一 项 内 容 ， 可 以 帮助 我 们 更 容易 地 理解 这 个 问题 。 对 于 任意 两 点 A 和 也， 所 
有 与 这 两 点 等 距离 的 几何 点 落 在 一 条 线 上 ( 称 为 垂直 平分 线 )， 它 垂直 于 A 和 了 的 连 线 而 且 
正好 平分 连 线 。 在 图 11-3 中 ， 用 虚线 连接 最 初 的 种 子 ， 产 生 的 簇 边界 用 实 线 表 示 ， 它 与 虚 
线 之 间 呈 一 定 的 角度 。 利 用 这 些 线 ， 可 以 很 容易 地 看 出 哪些 记录 与 哪些 种 子 最 接近 。 在 三 维 
空间 中 ， 这 种 边界 是 平面 ， 而 在 N 维 空间 中 ， 就 变 成 N - 1 维 超 平面 。 幸 运 的 是 ， 计 算 机 
算法 可 以 很 容易 地 处 理 这 种 情况 。 找 到 艇 之 间 的 实际 边界 有 助 于 从 几何 角度 展示 这 个 过 程 。 
在 实际 工作 中 ， 所 用 的 算法 经 常 是 测量 每 一 条 记录 与 每 一 个 种 子 的 距离 ， 然 后 选 出 最 小 的 
距离 。 


全 ”Susan P. Ashdown 在 1998 年 发 表 了 “只 码 系统 结构 的 调查 ;: 从 人 体 测 量 数据 产生 的 三 个 最 优 多 维 尺 码 系统 的 对 
比 "， 发 表 在 《国际 服装 科学 和 技术 杂志 》 第 10 卷 第 $ 期 ，324-341 页 。 
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图 11-3 初始 种 子 确定 了 初始 复 的 边界 


例如 ， 让 我 们 考虑 图 11-3 中 用 一 个 方 框 围 住 一 条 记录 的 情况 ， 以 最 初 的 种 子 为 基础 ， 
这 条 记录 被 归 人 2 号 种 子 控制 的 入 ， 因 为 它 与 该 种 子 的 距离 比 其 他 两 个 种 子 都 更 近 。 

此 时 ， 每 一 个 点 都 被 准确 地 分 配 到 以 初始 种 子 为 中 心 的 三 个 和 能 之 一 。 第 三 步 就 是 计算 这 
些 复 的 形 心 ， 这 些 形 心 比 原来 的 种 子 更 能 代表 不 同 复 的 特征 。 找 出 形 心 的 方法 仅仅 是 把 入 中 
的 所 有 记录 按照 维 取 平 均值 。 

在 图 11-4 中 ， 新 的 形 心 用 “十 ” 字 标 记 出 来 。 箭 头 所 表示 的 是 从 初始 种 子 的 位 置 向 由 


这 些 种 子 形成 的 新 形 心 的 运动 。 


图 11-4 形 心 是 由 分 配 到 每 个 篮 中 的 点 计算 出 来 的 
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这 些 形 心 变 成 了 下 一 次 迭代 算法 的 种 子 ， 重 复 第 二 个 步 又， 然后 每 一 个 点 又 被 归 人 到 离 
其 形 心 最 近 的 徐 。 图 11-5 给 出 了 新 形成 的 簇 边界 ， 像 以 前 一 样 ， 划 一 条 与 每 个 形 心 等 距离 
的 线 。 注 意 ， 被 方 框 围 住 的 那个 点 原来 被 分 配 到 仿 2， 现 在 已 经 被 归 到 了 往 1。 这 个 把 点 分 
配 到 簇 然 后 计算 形 心 的 过 程 一直 进 行 ， 直 到 簇 的 边界 不 再 发 生 改 变 为 止 。 实 际 上 K 平均 算 
法 通常 在 几 十 次 选 代 之 后 才能 发 现 稳定 的 簇 。 


图 11-5 在 每 一 次 迭代 中 ， 所 有 得 的 分 配 都 经 过 重新 评价 


11.2.2 K 的 意义 


到 类 描述 了 数据 中 的 潜藏 结构 ， 但 还 没有 一 个 对 这 种 结构 的 恰当 描述 。 比 如 ， 某 个 来 自 
纽约 市 ”的 人 可 能 把 整个 城市 看 成 “市 区 ”， 而 另 一 个 来 自 布鲁克 林 或 昆 士 的 人 可 能 只 把 
“市 区 ”这 个 词汇 用 于 曼哈顿 。 而 在 曼哈顿 ， 它 可 能 只 是 指 第 23 大 街 以 南 附近 的 一 片区 域 ， 
但 到 了 这 片区 域 ,“ 市 区 ”可 能 只 是 为 曼哈顿 岛 南 端的 那些 林立 的 高 楼 所 保留 的 一 个 称谓 。 
聚 类 也 存在 类 似 的 问题 ， 数 据 中 的 结构 在 不 同 的 层次 存在 。 

对 天 平均 和 有 关 算 法 的 描述 掩盖 了 K 的 选择 问题 ， 但 多 数 情 况 下 ， 由 于 没有 一 个 预先 
存在 的 理由 去 选择 一 个 特定 的 人 值 ， 所 以 对 这 些 算法 来 说 ， 在 进行 分 析 过 程 中 确实 存在 一 
个 最 外 层 的 循环 ， 而 这 种 情况 在 计算 机 程序 计算 过 程 中 反倒 不 大 出 现 。 这 种 外 部 循环 包括 使 
用 一 个 K 值 进行 自动 聚 类 探测 ， 对 结果 评价 ， 然 后 用 另 一 个 KK 值 重新 试验 或 者 对 数据 进行 
修正 。 每 一 次 试验 后 ， 所 得 到 往 的 强度 可 以 通过 把 一 个 能 中 各 记录 之 间 的 平均 距离 与 不 同 艇 
之 间 的 平均 距离 进行 比较 来 评价 ， 也 可 以 通过 本 章 中 稍 后 介绍 的 其 他 过 程 进行 评价 。 这 些 测 


@ 纽约 市 《New York City)， 美 国 纽约 州 南 部 的 一 个 城市 ， 位 于 哈 得 逊 河口 的 纽约 湾 。 它 是 全 美国 最 大 的 城市 和 金 
融 、 文 化 、 商 业 、 船 运 和 通 运 中 心 ， 最 初 只 包括 曼哈顿 岛 ，1898 年 重新 划 定 后 包括 今天 的 曼哈顿 (Manhattan) 、 
布 隆 克 斯 〈the Bronx) 、 布 鲁 克 林 (Brooklyn) 、 昆 士 〈Queens) 和 斯 特 提 岛 (Staten Island) 五 个 行政 区 。 一 一 译 
者 注 
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免费 领取 更 多 资源 V: 3446034937 


睛 动 肢 类 东 观 241 


试 可 以 是 自动 进行 的 ， 但 这 些 复 必须 在 更 加 主观 的 基础 上 进行 评价 ， 以 确定 它们 对 于 某 个 应 
用 的 实用 度 。 就 像 图 11-6 显示 的 那样 ，K 的 不 同 数值 可 以 导致 形成 大 相 径 庭 但 同样 有 效 的 
徐 。 图 中 显示 了 当 K=2 和 开 =4 时 一 副 扑 克 牌 的 聚 类 过 程 ， 一 个 聚 类 是 否 比 另 一 个 更 好 呢 ? 
这 取决 于 聚 类 将 被 应 用 在 哪里 。 


图 11-6 ”一 副 扑 克 牌 中 ， 大 小 为 2 和 4 的 艇 实例 说 明 ,没有 惟一 正确 的 聚 类 


第 一 次 开平 均 聚 类 (K-means clustering) 通常 是 在 给 定 的 数据 集 上 进行 ， 大 多 数 数据 点 
落 在 一 个 巨大 的 中 心 篮 中 ， 而 它 的 外 面 有 许多 小 的 簇 。 这 一 切 常常 是 因为 在 数据 中 的 多 数 记 
录 表 现 为 “ 正 态 ” 变 化 ， 但 也 有 大 量 外 围 离 群 值 干扰 聚 类 算法 5 这 一 类 型 的 聚 类 过 程 或 许 在 
识别 欺诈 行为 、 制 造 缺陷 等 方面 的 应 用 上 很 有 价值 ， 而 在 另外 一 些 应 用 中 ， 人 们 可 能 非常 想 
从 数据 中 过 滤 出 离 群 值 ， 或 者 在 更 多 时 候 ; 解决 方法 是 修改 数据 的 值 。 本 章 稍 后 有 一 节 讲 解 
为 聚 类 进行 数据 准备 ， 描 述 了 如 何 从 变量 中 更 容易 地 找到 有 意义 的 聚 类 方法 。 


11.3 ”相似 性 和 距离 


一 旦 数据 库 的 众多 记录 被 定位 到 空间 上 的 不 同 点 ， 自 动 聚 类 探测 确实 就 是 非常 简单 的 问 
题 一 一 点 几何 学 知识 、 一 些 向 量 均值 ， 这 就 足够 了 ! 然而 ,问题 是 ， 在 市 场 营销 活动 、 销 
售 及 客户 支持 等 方面 所 遇 到 的 那些 数据 库 不 是 关于 空间 中 的 点 ， 而 是 有 关 购 买 、 电 话 呼叫 、 
飞机 旅行 、 汽 车 登记 以 及 很 多 其 他 的 事情 ， 它 们 与 聚 类 图 中 的 点 没有 一 点 明显 的 联系 。 

对 这 些 类 型 的 记录 进行 聚 类 要 求 有 一 些 自然 关联 性 的 概念 ;就 是 说 ， 某 个 给 定 艇 中 的 记 
录 彼 此 之 间 的 相似 性 比 与 其 他 簇 中 记录 的 相似 性 更 多 ， 因为 要 把 一 个 直观 的 概念 输送 到 计算 
机 上 是 很 困难 的 ， 所 以 这 个 相互 关联 的 含糊 概念 必须 转化 为 一 些 描 述 相似 程度 的 数值 型 度 
量 ， 最 常用 的 方法 〈 但 绝 不 是 仅 有 的 一 种 ) 是 将 所 有 的 字段 转化 成 数值 ， 这 样 就 可 以 把 记录 
当 作 空间 中 的 点 来 处 理 ， 那 么 ， 如 果 从 几何 学 上 看 两 个 点 是 相近 的 ， 则 在 数据 库 中 它们 代表 
的 就 是 相似 的 两 条 记录 。 这 种 方法 存在 两 个 主要 问题 : 

。 许 多 变量 类 型 ， 包 括 所 有 的 分 类 型 变量 (categorical variable)- 和 很 多 数值 型 变量 〈 比 

如 序列 ) ， 不 适合 作为 位 置 矢 量 中 的 一 部 分 进行 恰当 的 处 理 。 

。 在 几何 学 上 ， 每 一 个 维 的 贡献 都 同等 重要 ， 但 在 数据 库 中 ， 某 个 字段 上 的 一 点 微小 的 

变化 可 能 比 在 另 一 个 字段 上 的 巨大 变化 重要 得 多 。 
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下 面 的 部 分 介绍 几 种 相似 性 的 替代 度量 。 
11.3.1 相似 性 度量 与 变量 类 型 


几何 学 上 的 臣 离 对 于 测量 一 个 良 数值 型 变量 的 相似 性 表现 良好 , “ 良 数值 变量 ”的 值 表 
明 它 在 几何 模型 中 数 轴 上 的 对 应 位 置 ， 但 并 不 是 所 有 的 变量 都 属于 这 个 范畴 。 对 于 这 里 的 目 
的 ， 可 以 把 变量 分 为 如 下 四 类 ， 按 照 适应 这 一 几何 模型 的 程度 以 升序 排列 : 

。 分 类 变量 

。 排 序 

。 区 间 

。 真 实 度量 

分 类 变量 仅 描 述 一 件 事 情 属于 几 种 无 序 类 型 中 的 娜 一 个 ， 例 如 ， 可 以 把 一 种 冰淇淋 标记 
为 开心 果 味 ， 而 另 一 种 标记 为 奶油 山 核 桃 味 ， 但 不 可 能 说 出 其 中 哪 一 种 更 大 或 者 评价 出 哪 一 
种 与 黑 樱 桃 昧 更 接近 。 用 数学 术语 来 表达 就 是 : 我 们 可 以 说 X 关 Y， 但 不 能 说 X> Y 或 者 
X<Y。 

排序 就 是 把 事件 按照 一 定 次 序 排列 ， 但 不 给 出 这 件 事情 比 那 件 大 多 少 。 致 告别 词 的 毕业 
生 〈 通 常 为 毕业 班 成 绩 最 优秀 的 学 生 ) 比 致 毕业 词 的 学 生 代 表 (通常 是 得 第 二 名 ) 级 别 更 
高 ， 但 我 们 不 知道 高 多 少 。 如 果 X，Y,， 2Z 按 A，B，C 排 序 ， 且 我 们 知道 X> Y>Z， 但 
我 们 不 能 确定 X- 了 或 了 -2 的 大 小 。 

区 闻 度 量 的 是 两 个 观测 量 之 间 的 距离 ， 如 果 在 旧金山 水 温 是 56 度 ， 而 圣何塞 水 温 是 78 
度 的 话 ， 则 在 海湾 的 一 端 比 另 一 端的 水 温 高 22 度 。( 译 者 注 : 这 里 指 的 是 美国 人 常用 的 华氏 
温度 。) 

真实 度量 是 从 一 个 有 意义 的 0 点 开始 测量 的 区 间 变 量 〈interval variable) ， 这 一 特点 很 重 
要 ， 因 为 它 意 味 着 两 个 变量 值 之 比 是 有 意义 的 。 美 国 使 用 的 华氏 温度 以 及 世界 其 他 国家 使 用 
的 摄氏 温度 都 不 具备 这 个 特点 ， 无 论 上 述 哪 种 计量 体系 ， 都 不 可 以 认为 一 个 30" 的 天 气 会 比 
1 "的 天 气 暖 和 两 倍 ; 同样， 一 件 12 号 的 服装 不 会 是 6 号 服装 的 两 倍 ; 石膏 的 硬度 也 不 会 是 
云母 的 两 倍 ， 尽 管 它们 的 硬度 在 硬度 表 中 为 2 和 1+。 然 而 确实 可 以 说 50 岁 是 25 岁 的 两 倍 ， 
10 磅 的 糖 的 重量 是 5 磅 糖 的 两 倍 。 人 年龄、 重量、 长度、 客户 保有 期 和 体积 等 都 是 真实 度量 
的 例子 。 

几何 距 离 度量 是 有 明确 定义 的 ， 可 用 于 真实 度量 和 区 间 变 量 ， 为 了 使 用 分 类 变量 并 进行 
排序 ， 需 要 把 它们 转化 为 区 间 变 量 。 不 幸 的 是 ， 这 些 转 化 可 能 增加 一 些 伪 信息 ， 如 果 把 冰 湛 
淋 的 口味 任意 地 分 配给 1 一 28 的 数字 ， 则 看 起 来 号 和 6 号 口味 接近 ， 而 1 号 与 28 号 味道 
相差 甚 远 。 

上 述 这 些 以 及 其 他 一 些 数 据 转 换 及 准备 问题 将 在 第 17 章 中 详细 讨论 。 


11.3.2 相似 性 的 常规 度量 


即使 没有 几 百 种 ， 至 少 也 有 几 十 种 已 经 公布 的 技术 可 以 用 于 测量 两 条 记录 的 相似 性 ， 有 
些 技术 是 为 某 些 专门 用 途 而 开发 的 ， 像 文本 段落 的 比较 ; 另外 一 些 则 是 为 某 些 数据 类 型 (如 
二 进 制 变量 或 分 类 变量 ) 特别 设计 的 。 对 于 这 里 提 到 的 三 种 情况 ， 前 两 种 适用 于 区 间 变 量 和 
真实 度量 ， 第 三 种 适用 于 分 类 变量 。 
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1. 两 点 之 间 的 几何 距离 

如 果 一 条 记录 中 的 字段 是 数值 型 的 ， 则 记录 表现 为 N 维 空间 中 的 一 个 点 。 对 应 于 两 条 
记录 的 两 点 之 间 的 上 离 常用 作 它 们 之 间 相 似 性 的 度量 ， 如 果 两 点 间 曝 离 相近 ， 对 应 的 记录 就 
是 相似 的 。 

有 许多 方法 用 于 测量 两 点 间 的 臣 离 ， 就 像 下 面 的 “距离 度量 ”部 分 所 撒 述 的 ， 最 常用 的 
一 种 距离 是 大 家 熟悉 的 高 中 几何 中 的 欧 几 里 得 距离 ， 为 找 出 X 和 YY 之 间 的 距离 ， 可 以 先 找 
出 X 和 Y 两 个 点 的 对 应 分 量 〈 沿 每 一 个 数 轴 的 距离 ) 之 差 ， 并 求 出 各 自 平方 ， 平 方 之 和 再 
开 方 就 得 到 它们 间 的 距离 。 

距离 度量 

任何 函数 ， 只 要 能 够 由 两 个 点 产生 出 一 个 独立 的 数值 用 以 描述 它们 之 间 的 关系 ， 都 可 以 当 
作 一 个 测量 相似 性 度量 的 候选 者 ， 但 要 成 为 一 个 真正 的 距离 度量 ， 它 必须 满足 以 下 儿 个 标准 : 

。 当 且 仅 当 过 =y 时 ，Distance (z，y) =0 

。 对 所 有 的 zx 和 所 有 的 y，Distance (z，y) 0 

。Distance (并 ，y) 三 Distance (y， 工 ) 

。Distance (z，y) 委 Distance ( 工 ，z) + Distance (z，y) 

这 就 是 几何 学 中 距离 度量 的 正式 定义 。 

真正 的 距离 是 寻找 化 的 一 个 好 度量 ， 但 上 述 某 些 条 件 可 以 有 所 放宽 。 其 中 最 重要 的 条 件 
是 第 二 个 和 第 三 个 〈 数 学 中 称 为 同一 性 和 交换 性 )， 即 距离 为 0 或 者 一 个 正 值 ， 对 任意 两 点 
是 一 个 确定 的 值 。 如 果 两 条 记录 的 距离 为 0， 也 是 允许 的 ， 只 要 它们 非常 非常 相似 ， 因 为 它 
们 总 会 落 入 同一 个 答 中 。 

最 后 一 个 条 件 ， 即 三 角 不 等 式 ， 从 数学 角度 看 也 许 是 非常 有 趣 的 。 在 聚 类 过 程 中 ， 它 的 
基本 意义 是 : 增加 一 个 新 的 徐 中 心 不 会 使 两 个 距离 很 远 的 点 突然 之 间 看 起 来 靠近 了 。 幸 运 的 
是 ， 我 们 所 能 设计 出 的 绝 大 多 数 度量 方法 都 能 满足 这 个 条 件 。 


2. 两 个 向 量 间 的 夹 角 

有 时 ， 考 虑 两 条 记录 密切 关联 更 有 意义 ， 因 为 其 中 每 条 记录 的 字段 都 有 以 某 种 方式 相互 联 
系 的 相似 性 。 米 诺 鱼 可 以 与 沙丁鱼 、 鳞 鱼 及 金枪鱼 聚 成 一 类 ; 而 小 猫 可 以 与 美洲 豹 、 狮 子 及 老 
虎 聚 成 一 类 ， 尽 管用 身体 各 部 分 长 度 组 成 的 数据 库 中 ， 沙 丁 鱼 更 接近 于 小 猫 而 不 是 锥 鱼 。 

解决 这 一 问题 的 方法 是 对 同一 个 数据 使 用 不 同 的 几何 解释 ， 不 是 把 X 和 YY 作为 空间 点 
来 测量 它们 之 间 的 距离 ， 而 是 把 它们 当 作 向 量 去 测量 它们 之 间 的 夹 角 。 在 本 文 的 内 容 中 ， 向 
量 是 在 坐标 系 中 连接 原点 及 向 量 值 所 描述 的 某 一 点 的 一 条 线段 ， 一 个 向 量 既 有 大 小 〈 从 原点 
到 点 的 距 离 ) 也 有 方向 ， 对 于 这 种 相似 性 度量 ， 方 向 是 很 关键 的 。 

直接 取 狮 子 和 家 猫 的 胡须 、 尾 巴 、 整 个 身体 、 牙 齿 及 爪子 的 长 度 的 数值 ， 把 它们 各 自 当 
作 一 个 独立 的 点 作 图 ， 则 各 点 会 离 得 很 远 ， 但 如 果 两 个 物种 用 身体 这 些 部 位 的 长 度 求 出 的 比 
率 是 相似 的 ， 则 这 些 向 量 几乎 线性 对 应 。 

向 量 之 间 的 夹 角 提供 了 一 种 关联 程度 的 度量 ， 它 不 受 两 个 被 比较 事物 之 间 数 值 差异 的 影 
响 《〈 如 图 11-7)。 事 实 上 ， 角 的 正 弱 〈sine) 是 一 个 更 好 的 度量 ， 因 为 它 的 取 值 范围 从 0 ( 当 
向 量 最 接近 ， 即 几乎 平行 的 时 候 ) 到 1 〈 当 它们 垂直 的 时 候 )。 使 用 正 藤 函数 可 以 保证 处 理 
一 个 0 的 角 同 处 理 一 个 180" 的 角 一 样 ， 正 像 应 该 出 现 的 那样 ， 因 为 在 这 种 度量 中 ， 仅 有 一 
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个 常数 因子 不 同 的 任何 两 个 向 量 都 被 认为 是 相似 的 ， 即 使 这 个 常数 因子 是 负数 也 是 如 此 。 注 
意 ， 角 的 余弦 〈cosine) 可 以 测量 相关 性 ， 当 向 量 平行 〈 完 全 相关 ) 时 为 1， 当 垂直 时 为 0。 


本 


小 妖 


T T，T 人 


图 11-7 向 量 间 的 夹 角 作 为 相似 性 的 一 个 度量 


3. 曼哈顿 距离 

另 一 个 通用 的 距离 度量 的 名 称 来 源 于 学 哈 顿 市 中 心 的 街道 矩形 栅 格 图 ， 沿 着 每 一 条 轴线 
行进 可 以 很 容易 的 对 距离 求 和 ， 这 种 度量 法 某 些 时 候 成 为 欧 几 里 得 距离 的 首选 ， 因 为 沿 每 个 
轴线 给 出 的 那个 距离 不 被 求 平方 值 ， 不 大 可 能 在 某 一 维 上 产生 巨大 差异 而 支配 总 的 距 离 。 

4. 数字 的 普遍 特征 

当 记 录 中 的 字段 多 数 是 分 类 变量 时 ， 用 几何 度量 不 是 最 佳 选择 ， 一 个 比较 好 的 度量 是 基 
于 记录 间 的 重 理 程度 。 与 利用 几何 度量 一 样 ， 这 一 概念 可 以 有 很 多 变 体 ， 在 所 有 的 变 体 中 ， 
把 两 条 记录 的 字段 逐个 比较 来 确定 匹配 字段 数 以 及 不 匹配 字段 数 ， 这 样 一 个 最 简单 的 度量 就 
是 匹配 字段 与 总 字段 数 的 比率 。 

在 这 种 最 简单 方式 中 ， 这 种 度量 把 两 个 无 效 或 空 值 字段 看 做 是 匹配 的 ， 这 会 产生 不 正确 
的 结果 : 使 用 了 缺失 数据 的 每 件 事 情 最 后 都 归于 同一 个 入 中 。 一 种 简单 的 改进 就 是 不 要 包括 
这 些 匹 配 ， 或 者 不 在 匹配 计数 中 包括 这 种 类 型 ， 另 一 种 改进 是 按照 总 体 中 某 一 类 型 的 普遍 程 
度 对 匹配 加 权 ， 在 “Chevy Nomad” 型 汽车 方面 的 匹配 应 当 比 “Ford F-1590” 敞 莲 小 货车 占 
的 比重 更 高 。 


11.4 聚 类 过 程 的 数据 准备 


比例 缩放 和 加 权 的 概念 在 聚 类 过 程 中 都 起 着 重要 的 作用 ， 二 者 有 些 相似 ， 彼 此 间 常 常 混 
消 ， 但 二 者 并 不 相同 。 考 虑 到 不 同 变量 是 以 不 同 单位 或 者 在 不 同 范围 中 测量 的 事实 ， 比 例 缩 
放 可 用 于 调整 变量 的 值 ， 例 如 ， 家 庭 收入 是 以 数 万 美元 计算 的 ， 而 孩子 的 数目 是 以 个 位 数字 表 
丕 的 。 加 权 方 式 提供 了 对 变量 的 一 种 相对 调整 ， 因 为 其 中 的 一 些 变量 比 另 一 些 变量 更 重要 。 
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11.4.1 利用 比例 缩放 使 变量 相对 一 致 


在 几何 学 上 ， 所 有 的 维 同等 重要 ， 在 X、Y 轴 上 差 值 为 2、2 轴 方 向 差 值 为 1 的 两 个 点 
之 间 的 距离 ， 与 另外 两 个 在 X 方 向 差 值 为 1、Y 轴 和 2 轴 方 向 差 值 为 2 的 两 个 点 之 间 的 丰 
离 是 一 样 的 。 在 X、Y、2Z 轴 上 使 用 什么 单位 都 没关系 ， 只 要 单位 长 度 一 致 。 

但 如 果 在 X 轴 上 用 “ 码 ” 作 单位 ，Y 轴 用 “厘米 "， 而 Z 用 “海里 ”， 那 会 是 什么 情况 
昵 ? 在 Z 轴 上 1 的 差距 相当 于 立轴 上 185 200、X 轴 上 2 025 的 差距 。 训 无 疑问 ， 必 须 在 臣 
离 赋予 某 种 意义 之 前 ， 把 所 有 值 全 部 转换 为 一 个 共同 的 度量 。 

不 幸 的 是 ， 在 商业 数据 挖 据 中 ， 通 常 没有 一 个 共同 的 现成 度量 可 用 ， 因 为 测量 不 同 的 事 
物 使 用 的 是 不 同 的 单位 ， 如 果 变 量 中 包含 绘制 尺寸 、 孩 子 数 量 、 小 汽车 拥有 状况 及 家 庭 收 入 
等 ， 它 们 就 不 可 能 全 部 转换 为 统一 的 单位 。 另 一 方面 ，20 英亩 的 差 值 与 20 美元 的 改变 之 间 
也 是 难 分 辨 的 ， 会 使 人 感到 费解 。 一 种 解决 的 办 法 是 把 所 有 的 变量 映射 到 一 个 共同 的 范围 
《经 常 是 0 到 1 或 -1 到 1) 中 ,在 这 样 的 方法 中 ， 至 少 变化 的 比率 可 以 进行 比较 一 一 把 一 块 
场地 的 大 小 加 倍 与 收入 的 加 倍 有 同样 的 效果 。 比 例 缩放 可 以 解决 这 一 问题 ， 在 这 个 实例 中 是 
把 数据 重新 映射 到 一 个 共同 的 范围 。 

提示 : 通过 把 数值 归 一 化 、 指 数 化 或 标准 化 ， 把 不 同 的 变量 进行 缩放 ， 以 使 它们 的 

值 落 入 一 个 大 致 相同 的 范围 ， 这 一 点 是 非常 重要 的 。 

以 下 是 三 种 常用 的 方法 ， 将 变量 进行 比例 缩放 后 可 以 全 部 转换 到 可 比 范围 。 

。 把 每 一 个 变量 减 去 最 低 值 后 除 以 范围 大 小 〈 即 最 低 值 与 最 高 值 之 间 的 差 值 )， 使 所 有 

的 变量 值 都 映射 到 0~! 的 范围 ， 这 对 某 些 数据 挖掘 算法 是 很 有 用 的 。 

。 把 每 一 个 变量 值 除 以 变量 所 有 取 值 的 均值 ， 这 常 被 称 做 “变量 指数 化 ”。 

。 把 每 个 变量 值 减 去 它们 的 均值 ， 然 后 除 以 标准 差 〈standard deviation)， 这 通常 称 为 
“标准 化 〈standardization)” 或 “转换 成 z 得 分 "”。 一 个 z 得 分 可 以 告诉 你 某 个 值 离 均 
值 有 多 少 标准 差 。 

归 一 化 一 个 单独 的 变量 只 不 过 是 改变 它 的 范围 ， 一 个 相近 的 概念 是 向 量规 范 化 〈vector 
normalization) ， 即 一 次 将 所 有 的 变量 比例 缩放 。 这 也 可 以 用 几何 学 观点 解释 ， 把 一 个 单独 记 
录 或 观测 量 中 的 一 套数 值 看 做 一 个 向 量 ， 归 一 化 过 程 就 是 把 每 一 个 数值 按 比例 缩放 ， 以 便 使 
向 量 的 长 度 等 于 1。 将 所 有 的 向 量 转换 为 单位 长 度 ， 目 的 是 突出 每 条 记录 内 在 的 差异 ， 而 不 
是 强调 记录 之 间 的 差别 。 作 为 一 个 例子 ， 我 们 来 看 一 条 记录 的 债务 和 净 资 产 字段 ， 第 一 条 记 
录 包 含 $200 000 的 债务 和 $100 000 的 净 资 产 ， 第 二 条 则 有 $10 000 的 债务 和 $5 000 的 净 
资产 ， 归 一 化 以 后 ， 这 两 条 记录 看 上 去 是 一 样 的 ， 因 为 它们 的 债务 和 净 资 产 的 比率 是 相 
同 的 。 


11.4.2 使 用 权重 编码 外 部 信息 


比例 缩放 处 理 的 问题 是 由 于 变量 数值 的 大 小 有 差异 ， 使 得 一 个 变量 的 变化 看 起 来 比 另 一 
个 变量 的 变化 更 显著 。 假 设 考虑 这 样 的 情况 : 两 个 收入 相同 的 家 庭 比 两 个 具有 同样 占 地 面积 
的 家 庭 之 间 的 共同 点 会 更 多 ， 在 聚 类 过 程 中 如 何 把 这 一 点 考虑 进去 呢 ? 那 就 是 引入 加 权 ， 加 
权 的 目的 是 给 一 个 变量 是 否 比 另外 的 变量 更 〈 或 更 不 ) 重要 的 信息 加 入 编码 。 

一 个 好 的 起 点 是 标准 化 所 有 的 变量 ， 使 每 个 变量 的 均值 为 0 且 方差 (或 标准 差 ) 为 1。 
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按 这 种 方法 ,在 计算 两 条 记录 之 间 的 距离 时 ， 所 有 字段 的 贡献 相同 。 

我 们 建议 更 进一步 来 考虑 问题 ， 自 动 聚 类 探测 的 目的 是 发 现 对 你 有 意义 的 侯 ， 针 对 要 解 
决 的 问题 ， 如 果 人 们 是 否 有 孩子 比 他 们 所 带 的 信用 卡 数 更 重要 ， 就 没有 理由 不 给 孩子 字段 一 
个 比 信用 卡 更 大 的 权重 来 突出 它 在 聚 类 结果 中 的 比重 。 通 过 缩放 来 消除 由 于 单位 的 不 同 而 引 
起 的 偏差 以 后 ， 再 以 商业 领域 的 知识 为 基础 利用 权重 来 引入 偏差 。 

某 些 聚 类 工具 人 允许 使 用 者 对 于 不 同 的 维 增加 不 同 的 权重 ， 这 就 简化 了 处 理 过 程 。 即 使 对 
于 没有 这 项 功能 的 工具 ， 也 可 以 通过 调整 比例 缩放 值 来 加 和 权重。 方法 是 ， 首 先 把 该 值 缩 放 
到 一 个 常见 的 范围 以 消除 范围 带 来 的 影响 ， 然 后 根据 商业 环境 ， 把 得 到 的 结果 乘 以 一 个 权重 
来 引入 偏差 。 

当然 ， 如 果 你 想 评价 不 同 加 权 策 略 带 来 的 影响 ， 就 需要 在 聚 类 过 程 中 增加 另 一 个 外 层 
循环 。 


11.5 聚 类 探测 的 其 他 途径 


基本 的 开平 均 算法 有 许多 变 体 ， 包 含 自动 聚 类 探测 的 许多 商业 软件 工具 吸收 了 这 些 变 
体 中 的 某 一 些 算法 ， 它 们 的 差异 之 处 在 于 挑选 初始 种 子 的 不 同方 法 以 及 概率 密度 使 用 ， 而 不 
是 通过 距离 把 能 中 的 记录 联系 起 来 。 上 述 方法 的 最 后 一 种 变 体 值得 进一步 讨论 ， 此 外 ， 育 类 
过 程 可 以 有 几 种 不 同 的 方法 ， 包 括 族 聚 聚 类 、 分 裂 聚 类 及 自 组 织 映 像 等 。 


11.5.1 高 斯 混合 模型 


正如 和 人 们 指出 的 ， 玉 平均 算法 有 一 些 缺 点 : 

。 它 对 于 有 重 秋 的 艇 表现 不 大 好 ; 

。 簇 很 容易 被 离 群 值 牵 引 而 偏离 中 心 ; 

。 每 条 记录 只 有 一 种 情况 ， 就 是 属于 或 者 不 属于 一 个 已 知 簇 。 

高 斯 混合 模型 是 开平 均 算法 的 概率 论 变 体 ， 这 个 名 字 来 源 于 高 斯 分 布 ， 这 是 一 个 常用 
于 高 维 问题 的 概率 分 布 。 高 斯 分 布 推广 了 多 于 一 个 变量 的 正 态 分 布 ， 像 以 前 一 样 ， 该 算法 也 
是 从 挑选 K 个 种 子 开 始 。 但 是 ， 这 一 次 的 种 子 是 高 斯 分 布 的 均值 ， 该 算法 过 程 是 通过 被 称 
作 佑 计 步 骤 和 最 大 化 步 又 的 两 步 反 复 进 行 的 。 

估计 步骤 为 每 个 数据 点 的 每 一 个 高 斯 模型 计算 出 响应 度 〈 见 图 11-8) ， 在 每 个 高 斯 模型 
中 ， 那 些 靠近 均值 的 点 有 高 响应 度 值 ， 而 远离 均值 的 点 有 低 响 应 度 值 ， 所 以 响应 度 在 下 一 个 
步骤 中 被 当 作 权重 使 用 。 

在 最 大 化 步骤 中 ， 把 这 些 新 计算 出 的 响应 度 考虑 进来 ， 为 每 个 簇 计 算出 一 个 新 的 形 心 ， 
某 个 高 斯 模型 的 形 心 可 以 通过 对 该 高 斯 模型 的 所 有 点 的 响应 度 加 权 后 取 平均 来 求 出 ， 如 图 
11-9 所 示 。 

重复 这 些 步骤 直到 高 斯 曲线 不 再 移动 ， 当 然 ， 像 位 置 的 移动 一 样 ， 高 斯 曲线 本 身 的 形状 
也 可 以 发 生变 化 ， 然 而 ， 每 条 高 斯 曲线 是 受 约束 的 ， 因 此 如 果 舍 近 均 值 的 点 有 很 高 的 响应 
度 ， 那 么 其 响应 度 必然 在 其 他 地 方 会 有 明显 的 谷 。 如 果 高 斯 曲线 覆盖 了 大 的 数值 范畴 ， 那 么 
它 附近 的 点 会 有 较 小 的 响应 度 ， 由 于 该 分 布 必须 始终 保持 积分 为 1， 所 以 当 高 斯 曲线 范围 变 
大 时 其 强度 会 变 弱 。 

称 它 为 “混合 模型 ”的 原因 是 在 每 一 个 数据 点 上 的 概率 是 几 个 分 布 混合 后 的 总 和 。 在 这 
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个 过 程 的 最 后 ， 每 个 点 被 绑 定 到 一 个 具有 高 或 低 的 概率 的 不 同 簇 上 ， 这 有 时 被 称 为 软 聚 类 
(soft clustering) ， 因 为 其 中 的 点 不 惟一 对 应 于 单个 簇 。 


| 


图 11-8 在 估计 步 又 中 ， 对 每 个 点 都 为 高 斯 模型 分 配 了 一 些 响应 度 ， 粗 线 代 表 高 响应 度 


图 11-9 每 个 高 斯 均值 被 移 到 所 有 数据 点 的 形 心 ， 每 个 点 的 响应 度 被 加 权 ， 粗 箭头 表示 高 权重 


这 种 方法 的 一 种 结果 是 一 些 点 可 能 在 多 于 一 个 负 中 有 高 的 概率 ， 另 一 些 点 在 每 一 个 艇 中 
可 能 都 有 很 低 的 概率 ， 每 个 点 可 能 被 分 配 到 概率 最 高 的 艇 ， 这 样 就 把 这 些 软 聚 类 转化 为 硬 聚 
类 (hard clustering) 。 


11.5.2 凝聚 侣 类 
用 平均 算法 进行 聚 类 首先 是 从 一 个 固定 数目 的 簇 开 始 ， 将 所 有 的 记录 分 配 到 这 些 和 能 
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中 。 另 一 种 分 类 法 是 通过 凝聚 来 聚 类 ， 这 种 方法 是 从 每 个 数据 点 构成 它 自 己 的 簇 开 始 ， 逐 渐 
将 它们 合并 成 越 来 越 大 的 复 ， 直 到 所 有 点 凝聚 到 一 起 成 为 一 个 大 的 簇 。 在 这 一 过 程 的 开始 阶 
段 ， 秘 很 小 且 很 纯 一 一 每 个 得 的 成 员 很 少 且 密切 相关 ， 而 在 这 一 过 程 结束 时 ， 徐 很 大 且 界 限 不 
分 明 。 整 个 过 程 都 被 保存 下 来 ， 以 便 可 能 从 中 选 出 针对 给 定 应 用 能 得 出 最 好 结果 的 聚 类 层次 。 

1. 凝 孙 聚 类 算法 

第 一 步 是 创建 一 个 相似 性 天 阵 (similarity matrix) ， 该 相似 性 插 阵 是 由 徐 两 两 之 间 的 上 距 
离 或 相似 程度 形成 的 一 个 表格 。 最 初 ， 相 似 性 矩阵 包含 了 单独 的 记录 对 两 两 之 间 的 距离 。 就 
像 前 面 已 经 讨论 的 ， 有 很 多 关于 记录 之 间 的 相似 性 度量 ， 包 括 欧 几 里 得 距离 、 向 量 间 的 夹 角 
及 分 类 字段 之 间 匹 配 与 不 匹配 比率 等 。 距 离 度量 的 选择 引出 的 这 些 问 题 与 先前 关于 开平 均 
方法 讨论 的 相同 。 

这 可 能 像 N 个 数据 点 有 N 个 初始 复 的 情况 ， 需 要 有 六 个 测量 计算 来 创建 臣 离 表 。 如 
果 相 似 性 度量 是 一 个 真实 距 离 度量 ， 只 需 做 一 半 工 作 就 可 以 了 ， 因 为 所 有 真实 距离 度量 遵循 
下 列 规 则 : Distance (X，Y) =Distance (YY，X)。 在 数学 意义 上 ， 相 似 性 抢 阵 是 倒 三 角形 
的 。 下 一 个 步骤 是 寻找 相似 性 所 阵 中 的 最 小 值 ， 这 可 以 用 于 识别 两 个 最 相似 簇 ， 将 这 两 个 签 
合并 为 一 个 新 的 簇 ， 把 搞 述 父 簇 的 两 行 替换 成 描述 合并 后 的 得 与 剩余 复 之 间 上 离 的 一 个 新 
行 ， 以 此 更 新 这 个 撼 阵 ， 现 在 相似 性 矩阵 中 有 (N -1) 个 簇 和 (N-=-1) 行 。 

重复 (N -1) 次 上 述 合并 步骤 ， 则 所 有 记录 都 属于 同一 个 大 簇 。 每 一 次 欠 代 都 记 住 哪 
些 秘 被 合并 ， 这 些 簇 之 间 的 距离 是 多 少 ， 这 些 信息 常用 于 确定 到 底 使 用 哪个 层次 的 能 。 

2. 徐 间 距离 

关于 如 何 测量 簇 间 距离 还 需要 稍微 多 讲 一 点 。 在 整个 合并 步骤 的 最 初 阶 段 ， 簇 只 包含 单 
条 记录 。 因 此 ， 奥 间 上 离 等 同 于 记录 之 间 的 距 离 ， 这 可 能 是 在 前 面 已 经 详细 介绍 的 一 个 主 
题 。 在 该 循环 的 第 二 和 后 续 阶 段 中 ， 需 要 利用 新 的 多 记录 和 乌 与 其 他 所 有 艇 的 距离 来 更 新 相似 
性 矩阵 。 我 们 到 底 该 如 何 测 量 这 个 匠 离 呢 ? 

像 通 常 一 样 ， 需 要 选择 一 个 方法 ， 常 用 的 三 种 为 : 

。 单一 链接 

。 完全 链接 

。 形 心 距离 

在 单一 链接 方法 (single linkage method) 中 ， 两 个 得 间 的 距离 是 由 两 个 最 接近 的 成 员 的 
距离 给 出 的 ， 这 种 方法 产生 的 簇 有 这 样 的 特性 : 与 处 于 复 外 面 的 任何 一 个 点 相 比 ， 秘 中 的 每 
个 成 员 都 与 复 内 部 至 少 一 个 成 员 在 距 离 上 更 接近 。 

另 一 种 方法 为 完全 链接 方法 (complete linkage method) ， 两 个 得 之 间 的 距离 是 由 最 远 成 
员 之 间 的 距离 给 出 的 ， 这 种 方法 所 产生 的 篮 的 特性 是 ; 所 有 成 员 彼 此 位 于 一 个 已 知 的 最 大 距 
离 内 。 

第 三 种 方法 为 形 心 距 离 ， 两 个 秘 之 间 的 距离 是 通过 每 一 个 得 的 形 心 之 间 的 距离 来 测量 
的 ， 一 个 秘 的 形 心 是 它 成 员 的 平均 。 图 11-10 给 出 了 这 三 种 方法 的 示意 图 。 

3. 往 和 树 

族 聚 算法 创建 分 层 的 入 ， 在 每 一 层 上 ， 簇 由 下 一 层 的 两 个 复合 并 在 一 起 形成 ， 可 视 化 这 
些 复 的 一 个 好 方法 是 利用 树 ， 当 然 ， 这 样 的 一 棵 树 看 起 来 可 能 像 第 6 章 中 讨论 的 决策 树 ， 但 
有 很 大 的 差别 ， 一 个 最 大 的 差别 是 ， 复 树 的 结 点 中 并 不 骨 人 规则 来 描述 为 什么 会 产生 聚 类 ; 


免费 领取 更 多 资源 V: 3446034937 


司 动 丢 类 欣 测 | 249 


这 些 结 点 仅 表 示 一 种 事实 ， 即 两 个 子 结 点 是 所 有 可 能 的 答对 中 距离 最 小 的 。 另 一 个 差别 是 ， 
创建 决策 树 的 目的 是 最 大 化 给 定 目标 变量 的 叶 纯 庆 ， 而 繁 树 却 没 有 目标 ， 只 是 表示 每 个 艇 内 
的 自 相 似 。 本 章 稍 后 的 部 分 将 讨论 分 裂 聚 类 方法 ， 它 与 凝聚 聚 类 相似 ， 只 是 凝聚 法 是 由 叶子 
到 根部 生成 聚 类 ， 而 分 裂 法 是 由 根部 到 叶子 生成 聚 类 。 

通过 形 心 方法 得 


作 罗 罗 0 作 EC 


忆 通过 完全 链接 方法 
得 到 的 最 接近 的 入 


通过 单一 链接 方法 
得 到 的 最 接近 的 往 


图 11-10 测量 篮 之 间距 离 的 三 种 方法 


4. 通过 年 龄 对 人 进行 聚 类 : 凝聚 聚 类 示例 

这 个 凝聚 聚 类 的 说 明 使 用 了 在 一 维 空间 中 两 个 簇 之 间 的 臣 离 度量 的 单一 链接 实例 ， 这 些 选 
择 使 它 可 能 在 整个 适 代 过 程 中 遵循 该 算法 ， 而 不 必 担 心 使 用 平方 和 平方 根 对 距离 进行 计算 。 

这 些 数据 由 许多 以 家 庭 为 单位 收集 来 的 人 的 年 龄 构成 ， 目 的 是 使 用 他 们 的 年 龄 找 出 这 些 
参与 者 的 位 ， 两 个 人 之 间 上 距离 的 度量 就 简单 地 用 他 们 的 年 龄 差 。 人 和 群 的 两 个 艇 之 间 的 距离 标 
度 采 用 的 也 是 一 个 年 龄 差 ， 即 较 年 轻 的 簇 中 最 年 长 成 员 的 年 龄 与 较 年 长 的 入 中 最 年 轻 的 成 员 
之 间 的 年 龄 之 差 〈 单 一 链接 测量 的 一 维 空间 版 本 )。 

因为 该 距离 很 容易 测量 ， 这 个 例子 就 无 需 用 相似 性 矩阵 ， 其 过 程 是 把 参与 者 按照 年 龄 分 
类 ， 然 后 开始 聚 类 过 程 ， 首 先 把 相差 1 岁 的 簇 合 并 ， 接 着 是 相差 2 岁 的 ， 依 此 类 推 ， 直 到 仅 
剩 下 一 个 大 簇 。 

图 11-1L 显示 了 6 次 迁 代 之 后 保留 下 来 的 三 个 簇 ， 这 是 看 上 去 十 分 有 用 的 聚 类 层次 。 算 
法 似乎 把 人 口 聚 类 到 三 代 中 : 孩子 、 父 母 及 祖父 母 。 


11.5.3 ”分裂 聚 类 


我 们 已 经 注意 到 ， 在 诈 聚 聚 类 技术 形成 的 树 与 决策 树 算 法 形成 的 树 之 间 有 某 些 相似 性 ， 
虽然 凝聚 方法 的 工作 是 从 叶 到 根 ， 而 决策 树 算法 的 工作 是 从 根 到 叶 ， 但 它们 都 产生 一 个 相似 
的 分 层 结构 。 这 种 分 层 结 构 反 映 了 两 种 方法 的 另 一 个 相似 之 处 : 先前 过 程 中 做 出 的 决定 从 不 
被 回访 ， 这 意味 着 ， 如 果 早 期 的 分 裂 或 者 凝聚 会 破坏 该 结构 的 话 ， 某 些 相当 简单 的 钱 可 能 会 
探测 不 到 。 
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看 到 两 种 方法 产生 的 树 之 间 的 相似 性 ， 人 们 自然 会 问 ， 决 策 树 所 使 用 的 算法 是 否 可 以 用 
于 聚 类 过 程 呢 ? 答案 是 肯定 的 。 决 策 树 算法 始 于 全 部 记录 的 集合 ， 然 后 寻找 一 种 方法 把 该 集 
合 分 成 不 同 的 纯度 更 高 的 分 类 ， 它 在 某 种 意义 上 是 由 一 个 纯度 函数 确定 的 ， 在 标准 决策 树 算 
法 中 ， 这 个 纯度 函数 用 的 是 一 个 单独 变量 一 一 即 目标 变量 一 一 来 做 出 决策 。 把 决策 树 变换 成 
聚 类 算法 所 需要 的 就 是 选取 一 个 纯度 函数 ， 用 它 来 最 小 化 能 内 的 平均 距离 ， 或 者 使 侯 之 间 的 
距离 最 大 化 。 这 样 的 纯度 函数 的 一 个 例子 就 是 到 上 一 层 能 形 心 的 平均 距离 。 

由 于 纯度 函数 没有 任何 改变 ， 我 们 可 以 认为 决策 树 提 供 定向 的 聚 类 ， 就 是 说 ， 对 于 某 些 
目标 变量 ， 它 们 产生 具有 相似 记录 的 复 。 正 是 因为 这 一 个 原因 ， 普 通 的 决策 树 对 于 客户 分 片 
时 常 是 一 个 好 的 选择 ， 远 比 本 章 中 讨论 的 非 定向 聚 类 要 好 。 如 果 客 户 分 片 的 目的 是 找 出 那些 
忠诚 的 、 或 者 有 利 可 图 的 、 或 者 有 可 能 响 应 一 些 特别 的 促销 服务 的 客户 片断 ， 那 就 可 以 把 那 
些 变 量 之 一 (或 一 个 代表 ) 作为 目标 变量 进行 定向 聚 类 ; 另 一 方面 ， 如 果 客 户 分 片 的 目的 是 
刺激 与 新 产品 服务 相关 的 各 种 自然 出 现 的 客户 艇 的 讨论 ， 那 么 非 定向 方法 更 适当 。 


11.5.4 自 组 织 映像 


自 组 织 映 像 是 神经 网 络 的 一 个 变 体 ， 很 久 以 来 已 被 应 用 于 二 维 图 像 特征 探测 之 类 的 应 
有 用。 最近， 已 被 成 功用 于 更 广泛 的 聚 类 方面 。 这 在 第 7 章 自 组 织 网 络 中 已 经 进行 了 讨论 。 


11.6 评价 徐 


当 把 开平 均 算法 用 于 聚 类 探测 时 ， 是 否 有 方法 可 以 确定 什么 样 的 区 值 可 以 发 现 最 佳能 ? 
同样 地 ， 当 使 用 分 层 方法 (hierarchical approach) 时 ， 是 否 有 测试 可 以 找 出 分 层 的 哪 一 层 包 
含 最 佳 往 ? 说 某 个 得 好 意味 着 什么 ? 

当 在 实践 中 使 用 聚 类 的 时 候 ， 这 些 问题 都 是 重要 的 。 通 常 来 说 ， 复 中 应 该 有 高 度 相 似 的 
成 员 ， 或 者 ， 从 几何 学 的 角度 看 ， 这 些 成 员 应 该 彼此 很 近 一 而 各 个 秘 之 间 应 该 分 开 很 远 。 


图 11-11 雍 聚 聚 类 示例 
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衡量 秘 内 相似 程度 的 一 个 标准 度量 是 方差 〈 艇 内 的 每 一 个 成 员 与 均值 之 差 的 平方 和 )， 
因此 ， 最 佳 入 可 能 是 有 最 低 方差 的 那 一 组 。 但 这 个 度量 没有 考虑 簇 的 大 小 ， 一 个 类 似 的 度量 
可 能 是 平均 方差 ， 即 总 的 方差 除 以 艇 的 大 小 。 

凝聚 聚 类 以 方差 作为 度量 就 没有 意义 ， 因 为 这 个 方法 总 是 从 一 个 复 开 始 ， 当 然 ， 这 样 方 
差 就 是 零 。 对 于 凝聚 簇 ， 一 个 好 的 度量 是 如 下 两 个 量 之 间 的 差 值 : 形成 它 的 上 距 离 值 和 它 合 
到 下 一 层 的 距 离 值 之 差 ， 这 是 对 艇 持久 性 的 测量 。 强 能 ， 比 如 在 图 11-11 那个 在 距离 为 3 时 
把 工 岁 与 13 岁 相 联 系 的 位 ， 可 以 在 算法 中 持续 多 次 迭代 。 

适用 于 任何 形式 的 聚 类 探测 的 通用 度量 是 采用 任何 的 相似 性 度量 或 距离 度量 方法 来 形成 
乒 ， 然 后 使 用 它 来 比较 同一 秘 中 能 成 员 和 簇 形 心 之 间 的 平均 距离 与 不 同 艇 的 能 形 心 之 间 的 平 
均 距 离 ， 这 个 过 程 可 以 单独 用 于 每 个 复 以 及 全 部 们 的 集合 。 

提示 : 如 果 在 若干 较 弱 的 徐 中 有 一 、 两 个 好 的 著 ， 可 以 通过 除去 所 有 强 答 的 成 员 来 

改善 结果 。 强 复 无 论 如 何 都 值得 进一步 分 析 ， 而 且 除 去 它们 的 强劲 牵引 可 能 在 余下 

的 记录 中 发 现 新 的 乱 。 


11.6.1 在 答 内 部 


聚 类 过 程 时 常会 产生 一 个 或 几 个 强 艇 一 一 即 相当 大 的 簇 ， 其 中 的 记录 非常 相似 。 问 题 
是 ， 强 能 为 什么 这 么 特别 ? 在 这 些 簇 的 记录 中 ， 到 底 是 什么 原因 导致 它们 总 是 集中 在 一 起 ? 
甚至 更 重要 的 是 ， 由 于 在 该 簇 中 来 自 数据 库 的 其 他 部 分 的 噪音 已 经 减少 ， 是 否 能 从 中 找 出 可 
能 的 规则 和 模式 ? 

解决 这 些 问 题 的 最 容易 的 方法 是 计算 能 中 每 个 变量 的 均值 ， 并 比较 该 均值 与 在 初始 的 总 
体 群 体 中 相同 变量 的 均值 ， 利 用 差 值 的 大 小 〈 或 者 更 好 一 点 ， 是 用 z 得 分 ) 把 不 同 变量 排 
序 。 查 看 那些 具有 最 大 差异 的 变量 有 助 于 解释 该 篮 特 殊 的 原因 。 


11.6.2 在 徐 之 外 


即使 只 发 现 一 个 簇 ， 聚 类 过 程 可 能 也 是 有 用 的 。 当 甄别 一 个 非常 稀有 的 缺陷 时 ， 可 能 没 
有 充足 的 例子 训练 定向 数据 挖掘 模型 来 发 现 它 。 一 个 例子 是 在 制造 厂 测试 电动 马达 。 聚 类 方 
法 只 能 用 于 在 包含 好 马达 的 样本 中 决定 “常态 ” 艇 的 形状 和 大 小 ， 当 一 个 马达 由 于 任何 理由 
排除 在 簇 之 外 时 ， 它 就 是 可 疑 者 。 这 种 方法 已 经 被 用 于 医学 领域 以 发 现 组 织 中 的 不 正常 细 
胞 ， 以 及 在 无 线 通讯 中 发 现 那 些 涉嫌 欢 诈 的 呼叫 模式 。 


11.7 案例 研究 : 聚 类 城镇 


《波士顿 环球 报 》(Boston Globe) 是 服务 于 波士顿 以 及 东 马 萨 诸 塞 州 和 新 罕 布什 尔 南部 
周围 区 域 的 两 家 大 日 报 之 一 , 《波士顿 环球 报 》 是 波士顿 的 主流 报纸 ，2003 年 的 日 发 行 量 超 
过 467 000 份 ， 而 《波士顿 先驱 报 》(Boston Herald， 该 城市 的 另 一 份 主要 日 报 ) 的 日 发 行 量 
为 243 000 份 。 在 星期 天 ， 环 球 报 的 发 行 量 甚至 超过 705 000 份 。 即 使 处 于 这 样 的 领先 位 置 ， 
2003 年 环球 报 也 不 敢 有 任何 懈怠 。 因 为 与 许多 报纸 一 样 ， 它 也 面临 着 这 样 一些 问 题 : 波 士 
顿 核心 市 场 读 者 群 在 缩减 ， 郊 区 报 业 市 场面 临 来 自 地 方 报纸 的 强 有 力 竞争 ， 在 那里 的 一 些 读 
者 已 经 流失 。 

为 了 与 郊区 报纸 更 好 地 竞争 ， 环 球 报 加 入 了 为 不 同 地 区 定制 的 报纸 版 面 ， 为 按照 地 域 划 
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分 的 12 个 地 区 加 入 了 特别 编辑 内 容 。 每 周 有 两 天 ， 读 者 都 可 以 读 到 为 本 区 精心 整理 的 一 些 
地 方 报导 页 。 环 球 报 使 用 的 编辑 区 域 利用 的 是 环球 报 已 有 的 数据 、 常 识 性 内 容 以 及 地 图 ， 但 
没有 正式 的 统计 分 析 。 在 编辑 区 域 组 成 方面 有 一 些 限制 条 件 ; 

“地域 必 须 是 地 理 上 连续 的 ， 以 便 波 士 顿 中 心 印刷 厂 运 载 本 地 版 面 的 卡车 可 以 选择 合理 

的 运输 路 线 。 

。 地 域 必 须 适 度 紧 凑 ， 且 包含 足够 的 人 口 以 证 明 特 殊 化 编辑 的 内 容 是 恰当 的 。 

。 编辑 区 域 必须 接近 于 过 去 做 广告 的 地 理 地 域 。 

在 这 些 限 制 条 件 框架 内 ， 环 球 报 希望 设计 出 能 够 把 相似 的 城镇 聚集 在 一 起 的 编辑 区 域 。 
这 听 起 来 是 可 行 的 ， 但 实际 上 哪些 城镇 是 相似 的 ? 这 就 是 《波士顿 环球 报 》 给 我 们 这 些 数 据 
挖掘 者 带 来 的 问题 。 


11.7.1 创造 城镇 特征 


在 决定 哪 一 些 城镇 可 以 归于 一 起 之 前 ， 必 须 找 到 撒 述 城镇 的 方法 一 一 城镇 特征 ， 它 需要 
包括 可 以 用 于 表征 城镇 特点 ， 以 及 可 用 于 比较 该 城镇 及 其 邻近 城镇 的 每 个 特征 的 一 个 列 。 碰 
巧 ， 在 数据 挖掘 者 先前 研究 的 一 个 早期 项 目 “ 找 出 增加 未 来 日 发 行 量 的 潜在 城镇 ”中 ， 已 经 
定义 了 城镇 特征 标识 。 为 预测 环球 报 家 庭 递送 穿 透 度 (penetration) 而 开发 的 回归 模型 中 使 
用 过 的 那些 客户 特征 标识 (〈customer signature) ， 对 非 定 向 聚 类 也 被 证 明 同 样 有 用 。 通 常会 
出 现 的 情形 是 ， 已 经 收集 的 一 组 有 用 的 描述 性 属性 可 以 用 于 所 有 其 他 的 事情 。 在 另外 一 个 例 
子 中 ， 一 家 长 途 公 司 为 了 要 预测 欺骗 ， 开 发 出 了 以 呼叫 明细 数据 为 基础 的 客户 特征 标识 ， 后 
来 发 现 当 区 别 商 务 和 住宅 用 户 时 ， 相 同 的 变量 也 是 有 用 的 。 

提示 : 虽然 产生 好 的 客户 特征 所 花费 的 时 间 和 精力 让 人 有 些 刁 惧 ， 但 这 种 努力 从 长 

期 来 看 是 有 回报 的 ， 因 为 同样 的 属性 对 于 许多 不 同 的 目标 变量 经 常 被 证 明 是 有 预言 

性 的 。 这 样 看 来 ， 被 经 常 引用 的 一 个 经 验 之 读 ， 即 “数据 挖掘 项 目 上 花费 的 时 间 有 

80% 用 在 数据 准备 上 ”可 能 就 不 是 那么 回 事 了 ， 因 为 这 种 数据 准备 工作 可 以 在 几 次 

预言 性 模型 的 建立 工作 中 被 分 期 偿还 。 

数据 

城镇 特征 标识 可 以 有 几 个 来 源 ， 大 部 分 变量 可 以 从 1990 年 和 2001 年 城镇 级 的 美国 人 口 
普查 数据 (census data) 得 到 。 人 口 普查 数据 可 以 提供 年 龄 、 种 族 、 宗 教 信 仰 、 职 业 、 收 
人 和 人、 住宅 价值 、 平 均 通 勤 时 间 以 及 诸多 其 他 令 人 感 兴趣 的 变量 。 除 此 之 外 ， 环 球 报 还 有 外 围 
数据 供应 商 提供 的 关于 订户 家 庭 层 次 的 数据 ， 当 然 还 有 每 个 城镇 的 发 行 量 数 据 ， 以 及 订阅 者 
层次 的 信息 ， 如 优惠 计划 、 投 诉 电 话 和 订户 类 型 (日 常 、 周 日 或 两 者 都 是 ) 等 。 

可 以 通过 四 个 基本 步骤 来 创建 城镇 特征 标识 : 

1) 聚集 。 

2) 归 一 化 。 

3) 计算 趋势 。 

4) 创建 衍生 变量 (derived variable) 。 

把 这 种 数据 转变 为 城镇 特征 标识 的 第 一 步 ， 是 聚集 城镇 层次 的 每 种 数据 。 举 例 来 说 ， 聚 
集 订 户 的 数据 以 得 出 每 个 城镇 中 订户 的 总 数 和 中 值 订 户 家 庭 收 入 。 

下 一 步 是 把 计数 转变 成 百分比 。 大 部 分 人 口 统 计 学 的 信息 是 以 计数 形式 出 现 的 ， 甚 至 像 
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收入 、 住 宅 价值 和 孩子 数目 等 ， 也 是 以 预先 定义 的 人 均 计 数 来 报告 的 。 把 所 有 计数 转换 为 城 
镇 人 口 的 百分比 是 把 人 口 差别 很 大 的 不 同城 镇 的 数据 归 一 化 的 一 个 好 例子 。 事 实 是 ， 在 
2001 年 有 4 年 大 学 学 历 的 27 573 个 人 住 在 Brookline，Massachusetts 的 实际 情况 则 没有 那么 
令 人 感 兴趣 ， 它 们 只 相当 于 教育 水 平 高 的 城镇 的 47.5% ， 而 在 波士顿 ， 具 有 类 似 学 位 的 人 
非常 多 ， 但 只 占 到 那里 总 人 口 的 19.4%。 

人 口 普查 数据 中 每 个 变量 都 有 相隔 11 年 的 两 个 值 可 以 使 用 。 这 种 历史 数据 是 让 人 感 兴趣 
的 ， 因 为 由 此 可 以 观察 趋势 。 城 镇 的 人 口 是 在 增加 还 是 减少 ? 其 中 ， 学 龄 人 口 有 多 少 ? 西班牙 
血统 的 人 口 有 多 少 ? 像 这 样 一 些 倾向 影响 了 对 一 个 城镇 的 感 党 和 印象 ， 因 此 应 该 在 特征 标识 中 
表现 出 来 。 对 于 某 些 因素 ， 如 总 人 口 ， 绝 对 的 趋势 是 令 人 感 兴趣 的 ， 因 此 可 以 计算 2001 年 的 
人 口 总 数 与 1990 年 的 人 口 总 数 之 比 ， 来 表示 这 种 趋势 。 对 于 其 他 一 些 因素 ， 如 城镇 中 既 有 租 
户 也 有 房 主 ， 人 口中 房 主 比例 的 改变 更 有 意义 ， 因 此 可 以 用 2001 年 房 主 百分比 与 1990 年 百 分 
比 的 比率 来 说 明 这 个 问题 。 在 所 有 的 情况 中 ， 对 于 任意 随时 间 增 加 的 量 ， 转 换 成 百分比 之 后 产 
生 的 值 是 一 个 大 于 II 的 指数 ， 而 对 于 随时 间 减 小 的 量 ， 该 值 是 一 个 小 于 1 的 指数 。 

最 后 ， 为 了 取得 特征 标识 中 不 可 辨别 的 重要 城镇 属性 ， 可 以 从 已 经 存在 的 变量 中 衍生 出 
另外 一 些 变量 。 举 例 来 说 ， 离 波士顿 的 距离 和 方向 在 形成 城镇 复方 面 似乎 看 起 来 很 重要 ， 这 
些 数 据 是 以 金 穹顶 州 议会 大 厦 的 纬度 和 经 度 为 坐标 原点 来 计算 的 ，Oliver Wendell Holmes 曾 
经 称 金 穹顶 州 议 会 大 厦 为 “太阳 系 的 中 心 ”( 今 天 的 波士顿 人 并 不 像 Holmes 法 官 那么 谦 示 ， 
他 们 把 整个 城市 称 为 “宇宙 的 中 心 ” 或 只 是 简单 的 “中 心 ”[Hub])。 报 纸 大 字 标 题 的 作者 
通常 用 “hub” 代 替 “Boston” 以 节省 3 个 字母 ， 比 如 “Hub man killed in NYC teror attaak? 
《一 个 波士顿 男子 在 纽约 市 发 生 的 尺 怖 获 击 中 遇难 ) 就 是 一 个 例子 。 在 线 邮 政 服务 数据 库 给 
每 个 城镇 经 度 和 纬度 提供 方便 的 来 源 ， 绝 大 多 数 的 城镇 有 单一 邮政 编码 ， 对 于 有 多 个 邮政 编 
码 的 城镇 ， 总 是 选择 以 最 低 数 字 表 示 的 邮政 编码 。 从 某 个 城镇 到 波士顿 的 虐 离 可 以 容易 地 从 
纬度 〈latitude) 和 经 度 〈longitude) 使 用 标准 的 欧 几 里 得 几何 距离 来 计算 。 尽 管 传说 地 球 是 
圆 的 ， 我 们 还 是 用 简单 的 平面 几何 来 进行 这 些 计算 ， 

distance = sqrt( (hub latitude-town latitude)? + (hub longitude towm longitude)2) 

angle = arctan( (hub jatitude towm latitude)/(hub longitude -town longitude) ) 


这 些 公式 是 不 严谨 的 ， 因 为 它们 假设 地 球 是 平坦 的 ， 且 纬度 上 1 的 长 度 与 经 度 上 1 的 
长 度 相等 ， 不 过 ， 我 们 所 要 讨论 的 区 域 还 没有 大 到 让 这 些 “ 平 坦 地 球 假设 ”出 现 很 大 差异 的 
程度 。 还 要 提 及 的 是 ， 因 为 这 些 数值 只 是 用 于 彼此 相互 比较 ， 所 以 不 必 把 它们 转换 为 我 们 熟 
悉 的 单位 ， 如 英里 、 公 里 或 度 等 。 


11.7.2 创建 筑 


创建 筑 的 第 一 步 就 是 利用 那些 以 人 口 统计 学 和 地 理学 数据 描述 该 城镇 的 特征 标识 ， 但 用 
这 种 方法 构建 的 能 不 能 直接 用 于 创建 编辑 区 域 ， 因 为 还 有 地 域 方面 的 约束 条 件 ， 即 编辑 区 域 
必须 由 嘴 邻 的 城镇 构成 。 由 于 有 相似 人 口 统计 学 数据 的 城镇 未 必 是 彼此 相连 ， 基 于 城镇 特征 
标识 找 出 的 秘 包 括 地 图 上 的 所 有 城镇 ， 如 图 11-12 所 示 。 加 入 权重 可 以 增加 形成 簇 的 过 程 中 
地 理 变量 的 重要 性 ， 但 结果 可 能 会 导致 那些 非 地理 变 量 被 完全 忽略 。 因 为 目标 是 寻找 至 少 部 
分 地 基于 人 口 统计 学 的 相似 性 ， 需 要 更 侧重 于 人 口 统计 学 方面 ， 所 以 就 放弃 了 地 域 能 的 想 
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法 。 这 样 ， 人 口 统计 学 能 就 可 以 与 地 理学 约束 因素 一 样 ， 作 为 一 个 因素 用 于 设计 编辑 区 域 。 


图 11-12 ”该 图 显示 了 Massachusetts 东部 及 New Hampshire 南部 各 城镇 人 口 统计 学 聚 类 情况 
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确定 徐 的 正确 数量 

直接 通过 聚 类 创建 编辑 区 域 的 想法 遇 到 的 另 一 个 问题 是 ， 出 于 一 些 商 业 方 面 的 原因 ， 可 
能 需要 12 个 编辑 区 域 ， 但 我 们 不 能 保证 找到 这 人 么 多 好 的 簇 。 这 就 产生 了 另外 一 个 问题 ， 即 
如 何 为 数据 集 确定 合适 数目 的 焦 。 用 于 这 个 聚 类 过 程 的 数据 挖掘 工具 (MineSet， 由 SGI 公 
司 开发 ， 现 在 可 以 从 Purple Insight 公司 购买 ) ， 为 解决 这 个 问题 提供 了 一 种 不 错 的 方法 ， 它 
把 天 平均 聚 类 与 分 裂 树 方法 结合 起 来 ; 首先 以 较 低 的 K 边界 确定 复数 目 ， 使 用 普通 的 开平 
均 算 法 构建 K 聚 类 ， 利 用 适应 度 度量 〈 比 如 不 论 使 用 哪 一 种 距离 函数 都 会 得 到 的 距 灸 中心 
的 均值 距离 或 方差 ) 确定 哪 一 个 是 最 差 的 焦 ， 然 后 把 这 个 艇 分 裂 为 两 个 簇 ， 反 复 重 复 这 一 过 
程 直到 达到 某 个 上 界 。 每 一 次 选 代 后 ， 记 录 该 簇 集合 的 总 体 适 应 度 的 度量 结果 。 前 面 已 提 及 
的 度量 是 : 从 艇 成 员 到 秘 中 心 之 间 的 平均 距离 与 能 之 间 的 平均 距离 之 比 。 

需要 记 住 的 是 ， 簇 的 最 重要 的 适应 度 度量 就 是 那个 难以 量化 的 度量 一 一 篮 对 某 个 应 用 的 
有 效 性 。 在 图 11-13 所 示 的 聚 类 树 中 ， 聚 类 树 算法 的 下 一 次 迭代 建议 把 和 能 2 进行 分 裂 ， 形 成 
的 钞 有 明确 的 差异 ， 但 对 于 任何 环球 报 感 兴趣 的 变量 而 言 ， 所 形成 的 新 能 都 没有 不 同 的 表 
现 ， 比 如 像 家 庭 递送 穿 透 度 或 订户 资历 等 。 图 11-13 显示 了 最 终 的 聚 类 树 ， 列 出 了 在 叶子 上 
的 每 个 篮 的 一 些 统计 学 数据 。 


[Cs 


350 个 城镇 
137 000 个 订阅 者 ， 
313 000 个 家 庭 ， 
44% 穿 透 度 


61 个 城镇 
203 000 个 订阅 者 ， 
1 200 000 个 家 庭 ， 
17% 穿 透 度 


72 个 城镇 
82 000 个 订阅 者 ,入 1AA 
375 000 个 家 庭 ， 
22% 穿 透 度 


49 个 城镇 

11 000 个 订阅 者 ， 
277 000 个 家 庭 ， 
4% 穿 透 度 


图 11-13 聚 类 树 把 《波士顿 环球 报 》 所 服务 的 城镇 分 为 四 个 独特 的 组 


艇 2 包含 了 50 个 城镇 中 的 313 000 个 家 庭 ， 其 中 137 000 个 家 庭 订 阅 日 报 或 局 末 版 环球 
报 ， 这 一 家 庭 递送 穿 透 度 使 得 能 2 无 疑 是 最 佳 入 。 能 够 用 于 把 秘 2 与 其 他 簇 和 人 口 总 体 区 分 
开 的 变量 是 住宅 价值 和 教育 程度 。 这 个 灸 有 最 高 的 住宅 价值 比例 、 最 高 的 有 4 年 大 学 学 历 的 
人 数 比例 、 最 高 受 教育 的 平均 年 数 和 最 低 的 蓝领 工作 人 员 上 比例。 从 家 庭 递 送 穿 透 度 观 点 来 
看 ， 次 好 的 艇 是 秒 1AA， 它 的 一 个 显著 特点 就 是 其 平凡 性 ， 在 这 个 例子 中 ， 住 宅 价 值 和 家 
庭 收入 这 两 个 最 重要 变量 的 均值 ， 与 总 体 人 口 的 均值 非常 接近 。 秘 1B 的 特征 是 ， 他 们 都 是 
一 些 有 最 低 家 庭 收 入 、 历 时 最 久 且 邻近 波士顿 的 订户 。 秘 1AB 是 惟一 主要 以 地 域 为 特征 形 
成 的 簇 ， 都 是 远离 波士顿 的 城镇 。 一 点 也 不 令 人 了 力 惊 的 是 ， 其 家 庭 递送 穿 透 度 很 低 。 在 所 有 
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簇 中 ， 秘 1AB 中 住宅 价值 最 低 ， 但 家 庭 收入 为 平均 数 。 可 以 推断 : 在 化 1AB 中 的 人 们 选择 
在 离 城市 较 远 的 地 方 居住 ， 因 为 他 们 和 希望 有 自己 的 住宅 ， 而 在 效 区 边缘 房价 比较 便宜 ， 这 种 
假设 可 以 在 市 场 调查 中 得 到 验证 。 


11.7.3 利用 主题 簇 调 整 区 域 边 界 


聚 类 项 目的 目标 是 确定 已 经 存在 的 编辑 区 域 ， 每 个 编辑 区 域 都 是 由 处 于 上 述 四 个 簇 之 一 
的 城镇 集合 构成 ， 下 一 个 步骤 是 通过 手工 方法 将 某 些 城镇 交换 到 邻近 的 区 域 ， 以 增加 每 个 区 
域 的 纯度 ， 例 如 ， 表 11-1 中 显示 ; 所 有 处 于 “City” 区 域 的 城镇 都 位 于 能 1B 中 ， 只 有 
Brookline 除外 ， 它 处 于 得 2 中 。 在 邻近 “West 1” 的 区 域 中 ， 除 Waltham 和 Watertovn 在 
簇 1B 中 以 外 ， 其 他 所 有 的 城镇 都 位 于 得 2 中 。 把 Brookline 交换 到 West 1 区 域 ， 并 把 Wa- 
tertown 和 Waltham 交换 到 “City” 区 域 ， 可 能 会 使 两 个 编辑 区 域 纯 度 增加 ， 因 为 这 样 在 每 
个 区 域 中 的 所 有 城镇 将 共享 同样 的 复 赋 值 ， 这 个 新 的 “West 1” 区 域 会 是 整个 化 2， 而 新 的 
“City” 区 域 将 是 整个 秘 1B， 就 像 从 图 11-12 中 可 以 看 到 的 ， 这 些 新 区 域 仍然 是 地 理 上 相 紫 
邻 的 。 

有 了 相似 城镇 组 成 的 编辑 区 域 ， 对 环球 报 来 说 ， 就 可 以 容易 地 集中 对 本 地 内 容 提供 有 针 
对 性 的 社论 ， 这 将 带 来 更 高 的 发 行 量 和 更 好 的 广告 销售 。 


表 11-1 “city” 和 “West 1” 编 辑 区域 中 的 城镇 

城 镇 编辑 区 域 能 分 配 状 况 
Brookline City 2 
Boston City 1 B 
Cambridge City 1 B 
Somerville City 1 也 
Needham West 1 久 
Newton West 1 2 
Wellesley West 1 2 
Waltham West | 1 了 B 
Weston West | 2 
Watertown West 1 1 B 


11.8 小 结 


自动 聚 类 探测 是 一 项 非 定向 数据 挖掘 技术 ， 可 用 于 认识 复杂 数据 库 的 结构 。 通 过 将 复杂 
数据 库 分 解 为 简单 的 能 ， 自 动 聚 类 方法 可 用 于 提高 更 具 指 导 性 的 那些 技术 的 性 能 ; 通过 选择 
不 同 的 距离 度量 ， 自 动 聚 类 可 被 应 用 于 几乎 任何 类 型 的 数据 。 它 可 以 用 于 在 一 系列 的 新 闻 题 
材 或 保险 索赔 中 发 现 叉 ， 也 同样 可 容易 地 用 于 寻找 天 文学 或 金融 数据 中 的 簇 。 

聚 类 算法 依赖 于 某 种 相似 性 的 度量 ， 以 表明 两 条 记录 是 相近 的 还 是 远离 的 。 通 常 采用 儿 
何 学 距离 的 含义 ， 但 有 另 一 些 可 能 ， 当 要 分 类 的 记录 包含 非 数 值 型 数据 时 ， 这 些 另外 的 方法 
可 能 会 更 适当 。 

自动 聚 类 探测 最 常用 的 算法 之 一 是 开平 均 算法 ， 是 一 种 基于 距离 寻找 K 聚 类 的 选 代 方 
法 。 本 章 还 介绍 了 几 种 其 他 聚 类 法 : 高 斯 混合 模型 是 基于 K 平均 算法 的 变 体 ， 人 允许 簇 之 间 
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的 重 选 ; 分裂 聚 类 通过 将 一 个 初始 的 大 乌 逐 次 分 裂 ， 建 立 一 个 聚 类 树 ; 将 聚 聚 类 则 开始 于 许 
多 小 的 簇 ， 逐 渐 把 它们 结合 起 来 ， 直 到 只 剩 下 一 个 篮 为 止 ; 分 裂 算法 和 凝聚 算法 都 允许 数据 
挖掘 者 利用 外 部 标准 来 判断 结果 聚 类 树 的 哪个 层次 对 于 某 个 特定 应 用 是 最 有 用 的 。 

本 章 介绍 了 艇 适应 度 的 一 些 技术 度量 ， 但 聚 类 过 程 的 最 重要 度量 是 ， 这 些 能 对 于 促进 某 
些 商业 目的 到 底 有 多 大 用 处 。 
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第 12 章 ， 市 场 营 销 中 的 风险 函数 和 生存 分 析 


风险 、 生 存 ， 这 些 极端 术语 容易 使 人 联想 到 可 怕 的 情景 : 不 管 是 闪烁 的 蓝光 、 高 尔 夫 春 
球 的 风险 ， 还 是 更 可 怕 的 事情 ， 比 如 史 萤 芬 ' 金 的 小 说 、 战 争 电影 或 某 些 真实 的 电视 秀 。 也 
许 如 此 可 怕 的 联想 说 明了 为 什么 这 些 技术 常常 不 与 市 场 营销 联系 到 一 起 。 

如 果真 是 这 样 ， 那 是 令 人 忱 惜 的 。 生 存 分 析 (survival analysis， 也 称 为 时 间 事 件 分 析 
[time-to-event analysis]) 则 没有 什么 好 担心 的 。 恰 恰 相 反 : 生存 分 析 对 了 解 客户 非常 有 用 。 
昌 然 其 根源 和 术语 来 自 医 学 研究 和 制造 业 的 故障 分 析 ， 但 概念 是 专 为 市 场 营 销 而 设计 。 生 存 
告诉 我 们 何 时 该 开始 担忧 客户 做 出 的 重大 决策 ， 如 : 结束 购买 关系 。 它 告诉 我 们 哪些 因素 与 
事件 最 紧密 相关 。 风 险 和 生存 曲线 也 提供 客户 和 他 们 的 生存 周期 的 快照 ， 并 可 以 回答 这 样 一 
些 问 题 ， 诸 如 :“ 我 们 应 该 在 多 大 程度 上 担心 该 客户 将 要 在 不 久 的 将 来 离开 ?” 或 “这 位 客户 
最 近 没 有 进行 购买 ; 是 否 应 该 开始 担忧 客户 将 不 再 返回 ?” 

生存 方法 关注 客户 行为 的 最 重要 方面 : 保有 期 〈tenure)。 客 户 曾 经 保持 多 久 为 我 们 提 
供 了 很 多 的 信息 ， 尤 其 是 当 与 特别 的 业务 问题 相关 的 时 候 。 客 户 在 未 来 多 长 时 间 将 仍然 是 客 
户 ， 这 是 一 个 谜 ， 但 过 去 的 客户 行为 有 助 于 揭示 未 来 的 秘密 。 几 乎 每 种 商业 活动 都 认识 到 客 
户 忠诚 的 价值 。 正 如 本 章 后 面 看 到 的 ， 一 项 忠诚 度 的 指导 原则 一 一 客户 停留 时 间 越 长 ， 越 不 
可 能 在 任何 时 间 点 终止 购买 关系 一 一 确实 是 一 个 关于 风险 的 正确 表达 。 

市 场 营 销 与 医学 研究 领域 有 几 点 不 同 。 其 一 是 ， 我 们 的 行为 结果 很 少 令 人 感觉 可 怕 : 一 
位 病人 可 能 死 于 拙劣 的 治疗 ， 然 而 市 场 营 销 的 结果 仅仅 以 金钱 来 度量 。 另 一 个 重要 区 别 在 于 
数据 量 。 最 大 的 医学 研究 有 数 万 参与 者 ， 并 且 很 多 研究 结论 仅 来 自 其 中 的 数 百 人 。 当 试图 决 
定 平 均 无 故障 时 间 (mean time between failure，MTBF) 或 平均 故障 间隔 时 间 (mean time to 
failure，MTTEF) (这 是 制造 业 中 一 个 描述 某 个 昂贵 的 机 件 直到 损坏 所 需 时 间 的 术语 ) 时 ， 结 
论 时 常 基于 几 十 个 故障 。 

在 客户 世界 中 ， 数 万 只 是 一 个 较 低 的 限度 ， 因 为 客户 数据 库 时 常 包含 数 以 百 万 计 客 户 和 
前 客户 的 数据 。 生 存 分 析 的 许多 统计 背景 集中 于 在 数 百 数据 点 中 提取 每 一 点 信息 。 在 数据 控 
掘 应 用 中 ， 数 据 量 是 如 此 巨大 ， 以 至 于 人 们 对 置信 度 和 精确 度 统计 的 关注 被 管理 大 量 数据 的 
关注 所 代替 。 

生存 分 析 的 重要 性 是 它 提供 了 解 时 间 事 件 特征 的 方法 ， 如 : 

。 客 户 何 时 可 能 离开 

。 一 位 客户 可 能 转向 新 客户 片段 的 未 来 时 间 点 

。 客 户 可 能 拓宽 或 者 缩小 客户 关系 的 未 来 时 间 点 

。 客 户 关 系 各 种 因素 中 ， 增 加 或 者 减少 保有 期 的 因素 

。 各 种 因素 对 客户 保有 期 的 定量 影响 

这 些 对 客户 的 深入 了 解 直接 馈 人 市 场 营销 过 程 中 ， 使 得 了 解 不 同 客户 组 停留 的 时 间 成 为 
可 能 ， 进 而 可 以 得 知 从 这 些 客户 群 组 可 能 赚 取 的 利润 。 由 此 可 以 预测 客户 数目 ， 可 以 同时 考 
虑 到 新 客户 的 获取 和 当前 客户 群 的 下 降 。 生 存 分 析 也 使 得 确定 娜 些 因 素 (包括 在 客户 关系 创 
建 之 初 和 后 续 阶 段 中 的 各 种 因素 ) 对 客户 停留 最 长 时 间 、 影 响 最 大 成 为 可 能 。 生 存 分 析 也 可 
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应 用 于 客户 保有 期 之 外 的 其 他 事情 ， 可 以 确定 何 时 另 一 个 事件 不 再 可 能 发 生 ， 比 如 客户 转向 
一 个 网 站 。 

开始 讨论 生存 分 析 的 很 好 起 点 应 该 是 客户 保持 的 可 视 化 ， 保 持 是 生存 的 粗略 近似 值 。 在 
这 之 后 再 讨论 风险 ， 即 生存 的 组 成 模块 。 这 反 过 来 要 结合 生存 曲线 ， 生 存 曲 线 类 似 于 保持 曲 
线 〈retention curve) ， 但 更 有 用 。 本 章 最 后 以 Cox 比例 风险 回归 和 生存 分 析 的 其 他 应 用 结束 
讨论 。 在 这 个 过 程 中 ， 本 章 提供 生存 分 析 在 商业 环境 中 的 特殊 应 用 。 与 所 有 的 统计 学 方法 一 
样 ， 生 存 有 一 个 深度 ， 这 远 远 超出 了 本 章 的 内 容 范 畴 ， 本 章 中 我 们 试图 避免 这 些 技巧 所 涉及 
的 复杂 数学 内 容 。 


12.1 客户 保持 


客户 保持 是 大 多 数 商业 活动 关于 其 客户 的 一 个 常见 概念 ， 因 此 是 一 个 好 的 讨论 起 点 。 保 
持 实际 上 是 非常 接近 生存 的 近似 值 ， 尤 其 是 在 考虑 一 组 客户 全 部 同时 开始 的 时 候 。 保 持 提供 
了 一 个 熟悉 的 框架 ， 用 以 引入 一 些 重要 的 生存 分 析 的 概念 ， 如 客户 半衰期 和 平均 截取 客户 保 
有 期 。 


12.1.1 计算 保持 


客户 会 停留 多 长 时 间 ? 这 样 看 似 简单 的 问题 在 现实 世界 中 变 得 比较 复杂 。 了 解 客户 保有 
期 需要 两 方面 的 信息 : 

“ 每 位 客户 何 时 开始 

“ 每 位 客户 何 时 停止 

这 两 个 值 的 差 就 是 客户 保有 期 ， 是 客户 保持 的 一 个 很 好 的 度量 。 

任何 合理 的 客户 数据 库 都 应 该 使 这 些 数据 易于 人 使用。 当然， 市场 营销 数据 库 很 少 是 简单 
的 。 对 这 些 概念 有 两 种 挑 吉 : 第 一 个 挑战 是 确定 什么 是 开始 和 停止 ， 这 个 决定 通常 依赖 于 商 
业 类 型 和 可 用 的 数据 。 第 二 个 挑战 是 技术 方面 的 ; 在 可 用 的 数据 中 发 现 这 些 开始 日 期 和 停止 
日 期 不 像 它 们 最 初出 现时 那么 容易 。 

对 订阅 和 基于 账户 的 商业 ， 开 始 和 停止 日 期 很 好 理解 。 客 户 在 某 个 特定 的 时 间 开 始 订阅 
杂志 ， 当 不 想 再 为 杂志 付 账 的 时 候 结 束 订 阅 。 客 户 在 一 个 特定 的 时 间 在 电信 服务 、 银 行 账 
户 、ISP 服务 、 电 报 服务 、 保 险 条 款 或 者 电力 服务 等 合约 上 签字 ， 在 另 一 个 时 间 取 消 服 务 。 
所 有 这 些 情 况 下 ， 开 始 和 结束 关系 是 明确 定义 的 。 

其 他 一 些 商业 活动 没有 这 样 连续 的 关系 。 转 账 业务 尤其 如 此 ， 如 零售 、 网 站 门户 和 目录 
销售 等 ， 每 位 客户 的 购买 或 者 访问 ) 在 时 间 上 很 分 散 ， 或 者 可 能 仅仅 一 次 。 关 系 的 开始 是 
清楚 的 ， 通 常情 况 下 是 第 一 次 购买 或 者 访问 站 点 。 结 束 则 很 难 判断 ， 有 时 候 是 通过 商业 规则 
产生 的 。 例 如 在 过 去 的 12 个 月 里 没有 购买 的 客户 ， 可 能 视 为 流失 。 基 于 这 些 定义 ， 客 户 保 
持 分 析 可 以 产生 很 多 有 用 的 结果 ， 类 似 的 应 用 领域 是 确定 一 个 时 间 点 ， 在 这 个 时 间 点 之 后 ， 
客户 不 可 能 返回 〈 本 章 后 面 有 一 个 这 样 的 例子 )。 

技术 方面 的 问题 更 具有 挑战 性 。 我 们 来 考虑 杂志 订阅 问题 : 客户 关系 从 客户 签订 订单 的 
日 期 开始 吗 ? 抑或 是 从 第 一 次 收 到 杂志 开始 ? 那 时 可 能 已 经 是 几 周 之 后 了 。 或 者 ， 客 户 关 系 
的 开始 是 在 促销 期 结束 且 客 户 开始 支付 的 时 候 ? 

尽管 所 有 这 三 个 问题 都 是 客户 关系 的 重要 方面 ， 但 是 焦点 应 该 是 客户 关系 的 经 济 方面 。 
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成 本 和 (或 ) 收入 在 账户 启动 时 开始 使 用 〈 即 订阅 杂志 的 开始 日 期 )， 在 账号 停止 时 结束 。 
为 了 解 客户 ， 除 了 开始 订阅 的 日 期 之 外 〈 平 时 签 合同 的 客户 与 周末 签 含 同 的 客户 是 否 不 
同 ?)， 合 同 的 日 期 和 时 间 无 疑 是 重要 的 ， 但 是 ， 这 不 是 经 济 关 系 的 开始 。 而 促销 阶段 结束 时 
确实 是 客户 关系 的 初始 条 件 或 者 零 时 协同 变量 。 当 客户 签订 合同 时 ， 初 始 促销 阶段 是 已 知 
的 。 生 存 分 析 可 以 从 这 些 初始 条 件 收益 来 精 修 模型 。 


12.1.2 保持 曲线 揭示 的 内 容 


一 旦 可 以 计算 保有 期 ， 就 可 以 将 其 体现 在 保持 曲线 图 上 ， 从 而 可 以 显示 在 一 段 特定 的 时 
闻 保 持 的 客户 比例 。 这 实际 上 是 一 种 累积 直方 图 ， 因 为 有 三 个 月 保有 期 的 客户 被 包含 在 1 个 
月 和 2 个 月 的 部 分 中 。 因 此 ， 保 持 曲 线 总 是 从 100% 开 始 。 

现在 ， 我 们 假设 所 有 客户 从 同一 时 间 开 始 。 例 如 ， 图 12-1 比较 了 10 年 以 前 在 同一 个 时 
间 点 开始 的 两 组 客户 的 保持 。 曲 线 上 的 点 显示 了 在 1 年 、2 年 处 保持 的 客户 比例 ， 依 此 类 
推 。 这 样 的 曲线 从 100% 开 始 ， 然 后 逐渐 下 降 。 当 保持 曲线 表示 的 客户 在 同一 时 间 开 始 的 时 
候 〈 正 如 这 一 情形 )， 它 就 是 生存 曲线 的 一 个 接近 的 近似 值 。 


0 12 24 36 48 60 72 84 96 108 120 
保有 期 (开始 后 的 月 数 ) 


图 12-1 保持 曲线 表明 ， 高 端 客户 停留 时 间 更 长 


不 同 的 客户 组 之 间 保 持 的 差别 在 图 中 清晰 可 见 ， 并 且 可 以 量化 。 最 简单 的 度量 是 考察 特 
定时 间 点 的 保持 。 例 如 ，10 年 以 后 ， 普 通 客户 的 24% 仍然 处 于 客户 圈 ， 而 且 这 些 客户 中 只 
有 173 的 人 持续 了 $ 年 。 高 端 客户 做 得 更 好 ， 其 中 超过 一 半 的 人 持续 了 5 年 ，42% 的 人 其 客 
户 生 存 期 至 少 是 10 年 。 

比较 不 同 组 的 另 一 种 方法 是 确定 一 半 客 户 离开 的 时 间 ， 即 客户 的 半衰期 〈 统 计 学 术语 是 
中 值 客户 生存 期 )。 因 为 极 少数 具有 很 长 生存 期 和 很 短 生 存 期 的 客户 不 影响 中 值 ， 所 以 这 是 
一 个 很 好 的 度量 。 一 般 来 说 ， 中 值 对 少数 的 离 群 值 不 敏感 。 

图 12-2 阐明 如 何 使 用 保持 曲线 找到 客户 半衰期 (customer half-life) ， 即 恰好 保持 S0% 
的 客户 的 点 ， 也 即 水 平 格 线 的 50% 处 和 保持 曲线 的 交点 。 这 两 个 组 的 客户 半 训 期 展示 了 与 
10 年 生存 分 析 完 全 不 同 的 差别 ， 高 端 客户 的 中 值 生存 期 接近 7 年 ， 而 普通 客户 的 中 值 生存 
期 略 低 于 2 年 。 
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0 12 24 36 48 60 72 84 96 108 120 
保有 期 〈 开 始 后 的 月 数 ) 


图 12-2 ”中 值 客户 生存 期 是 保持 曲线 与 S0% 处 相交 的 点 


12.1.3 从 保持 曲线 找 出 平均 保有 期 


客户 半 训 期 对 于 比较 很 有 用 且 容 易 计算 ， 因 此 是 一 个 有 用 的 工具 。 然 而 ， 它 不 回答 这 样 
一 个 重要 的 问题 :“ 一 般 说 来 ， 多 少 客户 在 这 期 间 是 有 价值 的 ?” 回 答 这 个 问题 需要 有 每 个 时 
间 的 平均 客户 价值 和 所 有 客户 的 平均 保持 程度 。 中 值 不 能 提供 这 些 信息 ， 因 为 中 值 仅仅 描述 
恰好 为 一 半 的 客户 的 情况 ， 也 即 在 50% 等 级 的 那些 客户 。 关 于 平均 客户 价值 的 问题 需要 估 
计 所 有 客户 的 平均 剩余 生存 期 。 

计算 平均 剩余 生存 期 的 一 个 简单 的 方法 是 : 在 此 期 间 的 平均 客户 生存 期 就 是 保持 曲线 下 
方 的 面积 。 图 12-3 用 一 种 巧妙 的 可 视 方法 展示 了 该 计算 。 


不 同 保有 期 的 一 群 客户 被 堆积 在 
一 起 。 每 个 横 条 表示 一 位 客户 。 


时 间 


在 每 个 时 间 点 ， 边 代表 在 该 点 活 
跃 的 客户 数 。 


客户 数量 


注意 : 所 有 的 面积 总 和 就 是 所 有 
客户 的 生存 期 总 和 。 


| 如 果 把 纵 坐 标 用 比例 代替 计数 ， 
| 可 以 生成 一 条 看 起 来 相同 的 曲线 。 
这 是 一 条 保持 曲线 。 


客户 比例 


保持 曲线 下 方 的 面积 是 平均 客户 
保有 期 。 


图 12-3 根据 保持 曲线 下 方 的 面积 计算 平均 客户 保有 期 
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首先 ， 设 想 客 户 全 部 躺 下 ， 脚 在 左边 排 成 一 排 。 他 们 的 头 部 表示 其 保有 期 ， 因 此 就 可 以 
用 各 种 不 同 身高 (或 者 体 宽 ， 因 为 他 们 是 水 平 的 ) 的 客户 代表 各 种 不 同 保有 期 的 客户 。 为 可 
视 化 起 见 ， 保 有 期 较 长 的 客户 躺 在 底部 ， 支 撑 起 较 短 保有 期 的 客户 。 连 接 他 们 的 鼻子 的 线 可 
看 做 在 特定 时 段 保 有 的 客户 数目 〈 记 住 : 假定 所 有 的 客户 是 在 同一 时 间 点 开始 )。 这 条 曲线 
下 方 的 面积 是 所 有 客户 的 保有 期 总 和 ， 因 为 水 平 躺 着 的 每 位 客户 都 被 计算 在 内 。 

用 垂直 轴 除 以 总 的 计数 会 产生 一 条 保持 曲线 ， 用 百分比 代替 了 计数 。 在 曲线 下 方 的 面积 
是 总 保有 期 除 以 客户 计数 一 一 瞧 ， 特 定时 期 的 平均 客户 保有 期 就 体现 在 图 中 。 

提示 : 在 客户 保持 曲线 下 方 的 面积 是 在 曲线 上 一 段 时 间 内 的 平均 客户 生存 期 。 例 如 ， 

对 于 一 个 有 2 年 数据 的 保持 曲线 ， 曲 线 下 方 的 面积 就 代表 两 年 的 平均 客户 保有 期 。 

这 一 简单 的 观察 解释 了 如 何 获 得 平均 客户 生存 期 的 估算 值 ， 这 样 当 一 些 客户 仍然 是 活路 
的 时 候 ， 就 提供 一 个 说 明 。 平 均值 实际 上 是 在 保持 曲线 之 下 时 间 段 的 平均 。 

考虑 本 章 较 早 提 到 的 保持 曲线 。 这 些 保持 曲线 是 关于 10 年 时 间 的 ， 因 此 在 曲线 下 方 的 
面积 是 最 初 10 年 期 间 客 户 关系 的 平均 客户 生存 期 估计 。 对 于 10 年 后 仍然 活 妈 的 客户 ， 没 有 
方法 知道 他 们 是 否 会 在 10 年 后 的 第 一 天 全 部 离开 ; 或 者 他 们 是 否 全 部 都 将 再 保持 100 年 的 
时 间 。 由 于 这 个 原因 ， 在 所 有 的 客户 已 经 离开 之 前 ， 不 可 能 确定 实际 的 平均 保持 时 间 。 

这 个 值 非常 有 用 ， 它 被 统计 学 家 称 为 截取 均值 生存 期 。 如 图 12-4 所 示 ， 较 好 的 客户 10 
年 的 平均 生存 期 是 6.1 年 ; 其 他 组 的 平均 生存 期 是 3.7 年 。 一 般 说 来 ， 如 果 一 位 客户 的 价值 
是 每 年 $100 的 话 ， 那 么 开始 之 后 的 10 年 间 ， 高 级 客户 的 价值 超过 一 般 客户 的 价值 $610 -- 
$370= $240， 或 大 约 每 年 $24。 这 $24 可 能 是 特别 为 高 级 客户 设计 的 保持 计划 的 利润 ， 或 
者 可 能 给 出 这 样 的 保持 计划 的 预算 数目 的 一 个 上 限 。 


生存 比例 


0 12 24 36 48 60 72 84 96 108 ”120 
保有 期 ( 开始 后 的 月 数 ) 


图 12-4 不 同 客户 组 的 平均 客户 生存 期 可 以 利用 保持 曲线 之 下 的 面积 进行 比较 


12.1.4 把 客户 保持 看 做 衰变 


虽然 我 们 通常 不 主张 把 客户 和 放射 性 材料 作 类 比 ， 但 是 这 一 类 比 有 助 于 理解 保持 。 把 客 
户 喻 作 铀 块 ， 它 慢 慢 地 、 放 射 性 地 衰变 为 铅 。 好 客户 是 铀 ， 已 经 离开 的 客户 是 铅 。 随 着 时 间 
的 过 去 ， 留 在 块 中 的 负数 量 看 起 来 有 点 像 我 们 的 保持 曲线 ， 微 妙 的 区 别 在 于 铀 的 时 间 帧 以 十 
亿 年 计 ， 而 不 是 较 小 的 时 间 度 量 。 


免费 领取 更 多 资源 V: 3446034937 


264 舅 12 间 


铀 的 一 个 非常 有 用 的 特征 是 已 知 的 ， 或 更 准确 地 说 ， 科 学 家 已 经 确定 如 何 计算 特定 的 时 
间 之 后 恰好 还 剩 多 少 铀 。 之 所 以 能 够 这 样 做 ， 是 因为 他 们 已 经 创建 了 描述 放射 性 误 变 的 数学 
模型 ， 而 且 这 些 已 经 被 实验 证 实 。 

放射 性 材料 的 训 变 过 程 被 描述 为 指数 衰变 (exponential decay)。 这 意味 着 不 管 时 间 过 去 
多 长 ， 都 有 相同 比例 的 铀 变 成 铅 。 例 如 ， 最 常见 的 铀 ， 其 半衰期 大 约 为 45 亿 年 ， 所 以 大 约 
一 半 的 铀 在 这 一 时 间 后 会 变 为 铅 。 在 后 续 的 45 亿 年 之 后 ， 剩 余 的 铀 的 一 半 将 会 训 变 ， 最 后 
剩 下 最 初 的 1[4 为 铀 ，3[4 为 铅 。 

警告 : 指数 衰变 有 许多 有 用 的 性 质 ， 可 用 于 预测 观察 范围 之 外 的 事情 。 不 幸 的 是 ， 

客户 几乎 不 表现 为 指数 衰变 。 

指数 衰变 如 此 有 用 的 原因 是 训 变 适合 一 个 精确 的 简单 方程 ， 利 用 这 个 方程 ， 可 以 确定 在 
任何 给 定时 间 还 剩余 多 少 铀 。 假 如 客户 保持 有 一 个 这 样 的 方程 岂 不 是 很 好 ? 

这 当然 会 非常 好 ， 但 是 不 太 可 能 ， 正 如 后 面部 分 所 示 的 例子 一 样 :“ 参 数 方法 不 起 作用 ”。 

为 了 和 弄 明白 这 一 问题 ， 假 想 有 这 样 一 个 世界 ， 其 中 的 客户 确实 具有 指数 衰变 特性 。 为 便 
于 讨论 ， 这 些 客户 的 半衰期 假设 为 1 年。 在 一 个 特定 的 日 期 开始 的 ,100 位 客户 ， 恰 好 50 位 
在 工 年 后 仍然 活跃 。2 年 之 后 ，25 位 活跃 ，75 位 已 经 停止 。 指 数 训 变 可 以 很 容易 地 预测 未 
来 活路 客户 的 数目 。 


确定 保持 曲线 下 方 的 面积 

确定 在 保持 曲线 下 方 的 面积 看 起 来 像 一 个 使 人 县 缩 的 数学 运算 ， 但 幸运 的 是 ， 根 本 不 是 
这 么 回 事 。 

保持 曲线 由 一 系列 点 构成 ; 每 个 点 代表 工 年 、2 年 、3 年 …… 之 后 的 保持 情况 。 在 这 种 
情况 下 ， 保 持 用 年 数 作为 单位 ; 单位 也 可 以 是 天 数 、 周 数 或 者 月 数 。 

每 点 的 值 在 0 和 1 之 间 ， 因 为 那 一 点 代表 的 是 到 该 时 间 点 保有 的 客户 比例 。 

下 图 展示 了 一 条 保持 曲线 ， 每 个 点 用 一 个 长 方形 围 住 。 长 方形 的 底 长 是 1〈 用 横 坐 标的 
单位 测量 )， 高 度 是 保持 比例 。 曲 线 下 方 的 面积 是 这 些 长 方形 的 面积 总 和 。 


保有 期 ( 年 数 ) 
用 长 方形 圈 住 每 个 点 ， 清 楚 表明 了 如 何 计算 保持 曲线 之 于 的 面积 
每 个 长 方形 的 面积 是 底 乘 以 高 ， 刚 好 是 保持 的 比例 。 那么 ， 所 有 长 方形 的 总 和 就 是 曲线 
上 所 有 保持 值 的 总 和 ， 这 在 电子 数据 表 中 是 很 容易 计算 的 。 瞧 ， 非 常 简单 的 一 个 计算 面积 的 
方法 ， 也 是 相当 有 意义 的 观测 结果 : 保持 值 的 总 和 〈 按 百分比 ) 就 是 平均 客户 生存 期 。 我 们 
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还 注意 到 ， 每 个 长 方形 的 宽度 是 一 个 时 间 单 位 ， 不 管 横 坐标 的 单位 是 什么 。 因 此 ， 平 均值 的 
单位 也 就 采用 横 坐 标的 单位 。 
参数 方法 不 起 作用 

尝试 用 一 些 已 知 的 函数 拟 合 保持 曲线 是 非常 吸引 人 的 ， 这 种 途径 被 称 为 参数 统计 学 ， 因 为 
它 利 用 一 些 参 数 描述 函数 的 形状 。 这 种 方法 的 作用 是 我 们 可 以 用 它 来 估计 未 来 发 生 的 于 情 。 

对 这 种 函数 来 说 ， 直 线 是 最 常见 的 形状 。 一 条 直线 有 两 个 参数 ， 即 直线 的 斜率 和 它 与 了 
轴 的 交点 位 置 。 另 一 种 常见 的 形状 是 抛物 线 ， 还 包含 一 个 X2 项 ， 因 此 执 物 线 有 三 个 参数 。 
描述 放射 性 衰变 的 指数 实际 上 只 有 一 个 参数 ， 那 就 是 半衰期 。 

下 图 是 关于 最 初 7 年 的 数据 的 局 部 保持 曲线 。 

该 图 也 表明 三 条 最 佳 拟 合 曲线 。 注 意 ， 所 有 这 些 曲 线 都 很 好 地 与 这 些 数值 吻合 ， 吻 合 程 
度 的 统计 学 度量 是 RE， 其 变化 从 0 到 1。 超 过 0.9 的 值 是 非常 好 的 ， 因 此 按照 标准 统计 度量 
标准 ， 所 有 这 些 曲 线 都 拟 合 得 相当 好 。 


1009% 
90s 二 00709x+09962 
8096 4 作证 本 RE = 0.9215 SR 
oo ] 于 0.0102x2 -0.1628x+ 1.1493 

09 二 一 一 2 0.998 

衬 50% 


一 oodaeos 一 一 
R2 = 0.9633 ER 


保有 期 ( 年 数 ) 
把 参数 曲线 拟 合 到 保持 曲线 是 很 容易 的 
真正 的 问题 不 是 这 些 曲线 对 定义 范围 内 的 数据 吻合 得 有 多 好 ， 我 们 想 知道 的 是 ， 这 些 曲 
线 在 最 初 33 周 之 外 的 效果 有 多 好 。 
下 图 回答 了 这 个 问题 ， 它 向 前 外 推 了 另外 5 年 的 曲线 ， 曲 线 很 快 偏离 实际 数值 ， 而 且 看 
来 我 们 走 的 越 远 偏离 似乎 增加 得 越 快 。 


保有 期 (年数 ) 
与 保持 曲线 拟 合 的 参数 曲线 在 定义 范围 之 外 拟 合 得 不 好 
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当然 ， 这 个 图 并 不 证 明 参 数 方法 不 起 作用 。 也 许 存在 这 样 一 些 函数 ， 如 果 具 有 正确 的 参 
数 ， 可 能 会 与 观察 到 的 保持 曲线 拟 合 得 很 好 ， 而 且 在 用 于 定义 参数 的 范围 之 外 ， 仍 然 能 够 继 
续 使 用 。 然 而 ， 这 个 例子 确实 表明 了 使 用 参数 方法 直接 逼近 生存 曲线 所 面临 的 挑战 ， 即 使 使 
用 更 多 的 数据 点 ， 这 也 与 我 们 的 经 验 一 致 。 能 够 很 好 地 拟 合 保持 曲线 的 那些 函数 ， 结 果 也 将 
很 快 偏离 。 

描述 这 种 情况 的 另 一 种 方法 是 ， 保 有 1 年 的 客户 行为 就 像 新 客户 一 样 。 考 虑 一 组 包含 各 
种 不 同 保有 期 的 100 位 客户 ，50 位 客户 后 来 离开 了 ， 不管 那 一 年 初期 的 客户 保有 期 如 
何 一 一 指数 衰变 是 说 一 半 客 户 将 要 离开 ， 不 管 他 们 的 初始 保有 期 如 何 ， 这 就 意味 着 保有 一 段 
时 间 的 客户 不 如 比较 新 的 客户 忠诚 。 但 是 ， 通 常 的 情形 是 保有 一 段 时 间 的 客户 实际 上 是 比 新 
客户 更 好 。 无 论 如 何 ， 较 长 保有 期 的 客户 在 过 去 已 经 逗留 ， 并 且 在 未 来 或 许 比 新 客户 更 不 可 
能 离开 。 指 数 衰变 是 一 种 差 的 情形 ， 因 为 它 进行 了 相反 的 假设 : 客户 关系 的 保有 期 对 客户 离 
开 的 比率 没有 影响 〈 最 坏 的 情况 是 具有 较 长 期 限 的 客户 离开 的 比率 一 贯 比 新 客户 高 ， 即 所 请 
的 “ 熟 而 无 礼 ” 情 形 )。 


12.2 风险 


关于 保持 曲线 的 前 述 讨 论 表明 保持 曲线 是 多 么 有 用 。 这 些 曲 线 很 容易 理解 ， 但 是 只 有 在 
与 相关 的 数据 对 应 的 时 候 。 它 们 没有 通用 的 形状 ， 没 有 参数 形式 ， 也 没有 关于 客户 衰变 的 重 
要 理论 ， 数 据 本 身 就 是 信息 。 

风险 概率 扩展 了 这 个 理念 。 正 如 这 里 讨论 的 ， 它 们 是 非 参数 统计 方法 的 一 个 例子 一 一 让 
数据 说 明 事实 ， 而 不 是 找 出 一 个 特别 的 函数 说 明 它 。 完 全 依赖 经 验 的 风险 概率 只 是 让 历史 数 
据 决定 可 能 发 生 的 事情 ， 并 不 尝试 拟 合 数据 到 某 种 预想 的 形式 。 它 们 也 提供 对 客户 保持 的 某 
种 估计 ， 可 能 生成 一 条 精 修 的 保持 曲线 ， 我 们 称 之 为 生存 曲线 。 


12.2.1 基本 思想 


风险 概率 回答 下 列 问题 : 
假设 一 位 客户 已 经 保有 一 段 特 定 长 的 时 间 ， 因 此 客户 保有 期 为 tf。 那么 客户 在 

时 刻 上 +1 之 前 离开 的 概率 是 多 少 ? 

描述 这 个 问题 的 另 一 个 方法 是 : 在 时 刻 的 风险 就 是 在 时 刻 * 和 时 刻 上 +1 之 间 损 失 客 
户 的 危险 程度 。 当 更 详细 地 讨论 风险 时 ， 使 用 这 一 定义 可 能 更 有 用 。 对 于 许多 类 似 的 简单 理 
念 ， 风 险 具 有 重要 的 地 位 。 

为 提供 一 个 风险 的 例子 ， 让 我 们 暂时 步 出 商业 界 ， 来 考虑 寿命 表 ， 它 可 以 描述 某 人 死 于 
一 个 特定 年 龄 的 概率 。 表 12-1 展示 了 2000 年 美国 人 的 这 一 数据 。 


表 12-1 以 寿命 表 展 示 的 美国 2000 年 的 死亡 率 风险 
年 龄 每 一 个 年 龄 段 中 死亡 人 数 占 总 人 口 的 百分比 
0 一 1 岁 0.73% 
1 一 4 岁 0.03% 
5 一 9 岁 0.02% 
10 一 14 岁 0.02% 
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( 续 ) 
年 龄 每 一 个 年 龄 豚 中 死亡 人 数 占 总 人 口 的 百分比 
1 一 19 岁 0.07% 
20 一 24 岁 0.10% 
2S 一 29 岁 0.10% 
30 一 34 风 0.12% 
35 一 39 岁 0.16% 
40 一 44 岁 0.24% 
45 一 49 岁 0.36% 
5S0 一 54 岁 0.S2% 
SS 一 59 岁 0.80% 
60 一 64 岁 1.26% 
65 一 69 岁 1.93% 
70 一 74 岁 2.97% 
75 一 79 岁 4.36% 
80 一 84 岁 7.40% 


85 一 89 岁 15.32% 


人 

寿命 表 是 一 个 关于 风险 的 好 例子 。 每 137 个 婴儿 中 有 1 个 在 工 岁 之 前 可 能 死亡 〈 这 实际 
上 是 一 个 非常 正常 的 比率 ; 在 不 发 达 的 国家 这 个 比率 可 能 高 很 多 倍 ); 然后 死亡 率 又 然 跌 落 ， 
但 最 终 稳 定 地 升 高 。 一 直到 55 岁 的 时 候 ， 死 亡 的 风险 又 像 岁 时 那样 高 。 这 是 某 些 风险 函 
数 的 特征 形状 ， 被 称 为 浴 红 形 〈bathtub shape)。 开 始 时 风险 很 高 ， 很 长 一 段 时 间 保 持 低 水 
平 ， 然 后 又 逐渐 增加 。 图 12-5 用 这 一 数据 为 例 说 明 浴缸 形 特征 。 


3.056 


风险 
闻 
立 


机 二 网 聊 攻 共 了 拓 芭 芭 拓 了 了 和 孜 瓜 瓜 

, ， ) 芯 对 区 

人 

22885839393888 5 
年 龄 ( 岁数 ) 


图 12-5 浴 纪 形 风险 函数 ， 开 始 时 高 ， 又 然 下 降 ， 然 后 又 逐渐 增加 


同样 的 理念 可 以 用 于 客户 保有 期 ， 尽 管 客户 风险 更 典型 的 是 以 天 、 周 或 月 计 而 不 是 以 年 
计 。 对 于 给 定 的 保有 期 二 计算 风险 ， 只 需要 两 笔 数 据 。 第 一 是 在 时 刻 t (或 在 和 z+1 之 
间 ) 停止 的 客户 数 ， 第 二 是 可 能 在 这 段 时 期 停止 的 客户 〈 也 称 为 风险 人 群 ) 总 数 ， 这 包括 保 
有 期 大 于 等 于 : 的 所 有 客户 ， 也 包括 时 刻 停止 的 那些 人 。 风 险 概率 是 这 两 个 数字 的 比 ， 并 
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且 作 为 概率 ， 风 险 总 是 介 于 0 和 1 之 间 。 这 些 风险 计算 是 由 统计 软件 SAS 和 SPSS 中 的 寿命 
表 函 数 提供 ， 当 然 也 可 以 在 数据 表 中 进行 计算 ， 直 接 使 用 客户 数据 库 中 的 数据 。 

一 条 防止 误解 的 说 明 : 为 使 计算 精确 ， 包 含 在 人 口 计数 中 的 每 位 客户 必须 在 该 特定 时 间 
内 有 停止 的 机 会 。 这 是 用 于 计算 风险 的 数据 具有 的 性 质 ， 而 不 是 计算 的 方法 。 在 多 数 情况 
下 ， 这 不 成 问题 ， 因 为 风险 是 由 全 体 客 户 或 基于 初始 条 件 〈 如 初始 产品 或 商业 活动 ) 的 某 个 
子 集 来 计算 的 。 当 客户 包括 在 计算 客户 保有 期 的 人 群 计数 中 时 ， 不 会 有 任何 问题 ， 客 户 可 以 
在 那个 时 刻 之 前 的 任 一 天 停止 且 仍 然 被 包含 在 数据 集 当 中 。 

注意 ; 不 要 选取 在 过 去 某 段 时 间 〈 如 过 去 的 一 年 ) 内 已 经 停止 的 客户 子 集 。 这 样 做 有 什 
么 问题 呢 ? 考虑 保有 期 2 年 旦 在 昨天 停止 的 一 位 客户 的 情况 : 这 位 客户 包含 在 计算 第 一 年 风 
险 的 所 有 人 口 计数 中 ， 但 该 客户 不 可 能 在 保有 期 的 第 一 年 期 间 停止 。 停 止 可 能 发 生 在 过 去 的 
一 年 多 之 后 ， 这 就 把 该 客户 排除 在 数据 集 之 外 。 因 为 把 不 可 能 停止 的 客户 包含 在 人 口 计数 
中 ， 人 口 计数 太 大 ， 以 至 于 初始 风险 太 低 。 本 章 后 面 将 介绍 一 个 解决 这 个 问题 的 方法 。 

芍 告 : 为 了 得 到 精确 的 风险 和 生存 曲线 ， 使 用 仅仅 基于 初始 条 件 定义 的 客户 群 。 特 

别 地 ， 不 要 基于 客户 如 何 和 何 时 离开 来 定义 群 。 

当 人 口 基 数 很 大 的 时 候 ， 没 有 必要 担忧 诸如 置信 度 和 标准 误差 的 统计 学 概念 。 然 而 ， 当 
人 口 基数 很 小 的 时 候 ， 就 像 在 医学 研究 或 某 些 商业 应 用 中 一 样 ， 置 信 区 间 就 可 能 变 成 一 个 议 
题 ， 这 意味 着 比方 说 5% 的 风险 可 能 实际 上 是 介 于 4% 和 6% 之 间 。 在 处 理 小 的 人 口 基数 
(如 少 于 数 千 人 ) 情况 的 时 候 ， 使 用 能 够 提供 标准 误差 信息 的 统计 学 方法 可 能 是 一 个 好 主意 。 
当然 ， 对 于 大 多 数 的 应 用 来 说 ， 这 不 是 关注 的 重点 。 


12.2.2 风险 函数 示例 


讲 到 这 里 ， 我 们 有 必要 看 一 些 风 险 函 数 的 例子 。 这 些 例 子 的 目的 在 于 通过 考察 风险 概 
率 ， 帮 助 了 解 发 生 的 事情 。 前 两 个 例子 是 基本 的 ， 而 且 事 实 上 本 章 中 已 经 介绍 过 。 第 三 个 来 
自 现 实 世界 的 数据 ， 而 且 是 一 种 很 好 的 体验 ， 体 会 风险 如 何 用 于 提供 客户 生存 期 的 X 光 片 。 

1. 恒定 的 风险 

恒定 的 风险 几乎 不 需要 用 图 解释 。 它 指 的 是 客户 离开 的 风险 完全 相同 ， 不 管 已 经 保有 客 
户 多 长 时 间 。 这 看 来 像 图 中 的 一 条 水 平 线 。 

假如 风险 以 天 计 ， 而 且 是 一 个 常数 0.1% ， 那么 每 天 在 1000 位 客户 中 有 一 位 离开 。 这 
意味 着 ， 在 一 年 (或 者 365 天 ) 之 后 大 约 30.6% 的 客户 已 经 离开 ， 一 半 客 户 离开 大 约 需 要 
692 天 ， 再 需要 另外 的 692 天 使 其 中 一 半 离 开 ， 如 此 继续 。 

恒定 的 风险 意味 着 客户 离开 的 机 会 不 随 客户 保有 的 时 间 长 度 而 变化 。 这 听 起 来 很 像 指数 
保持 曲线 ， 即 放射 性 元 素 衰变 那样 。 事 实 上 ， 便 定 的 保持 风险 会 使 保持 曲线 遵照 一 种 指数 形 
式 。 之 所 以 说 “会 ”>， 仅 仅 因 为 尽管 在 物理 学 方面 确实 发 生 过 ， 但 是 在 市 场 营销 方面 不 常 
发 生 。 

2. 浴 征 形 风险 

美国 人 口 寿 命 表 提 供 了 浴 向 形 风 险 函 数 的 一 个 例子 ， 在 生命 科学 中 这 很 普遍 ， 尽 管 浴缸 
形 曲 线 出 现在 其 他 的 领域 。 就 像 先 前 提 到 的 ， 浴 缸 形 风险 开始 时 相当 高 ， 然 后 下 降 并 且 很 长 
的 一 段 时 间 转 为 水 平 ， 最 后 风险 再 次 增加 。 

导致 出 现 这 种 情况 的 一 种 现象 是 ， 客 户 已 经 签订 合同 〈 例 如 移动 电话 或 ISP 服务 )， 典 
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型 的 是 1 年 或 更 长 的 时 期 。 在 合同 的 初期 ， 客 户 停止 是 因为 服务 不 合适 或 者 因为 不 支付 账 
单 。 在 合同 期 间 ， 客 户 被 阻止 取消 服务 ， 要 么 是 因为 经 济 上 处 罚 的 威胁 ， 要 么 仅仅 是 由 于 感 
到 有 责任 去 遵从 初始 条 款 。 当 合同 到 期 时 ， 客 户 时 常 迅 速 离开 ， 而 且 高 的 离 去 率 会 持续 一 段 
时 间 ， 因 为 客户 已 经 从 合同 中 解放 出 来 。 

一 有 旦 合同 过 期 ， 可 能 有 其 他 一 些 理由 导致 客户 离开 ， 如 产品 或 服务 价格 不 再 有 竞争 力 。 
市 场 改 变 了 ， 客 户 就 会 回应 这 些 变化 。 当 电话 费 下 降 时 ， 客 户 更 可 能 流失 到 竞争 对 手 一 方 ， 
而 不 会 与 当前 的 服务 提供 商 商 讨 降低 费 率 。 

3. 真实 的 例子 

图 12-6 展示 了 一 个 真实 的 风险 函数 的 例子 。 在 一 家 销售 基于 订阅 服务 (具体 的 服务 并 
不 重要 ) 的 公司 ， 风 险 函 数 测量 客户 在 注册 后 给 定 的 周 数 停止 的 概率 。 


加 国史 大 国 时 国庆 和 中 天 出 轩 量 大 加 只 大 
丽 汕 大国 玫 灶 国清 加 风 注 面 基 病 昌 辆 国 而 国有 
恒 加 | 玫 才 因而 轴 源 国 轩 大 加 因 天 呈 席 
地 田 曙 蜂 呈 响 而 职 硬 导 罚 辆 师 加 朋 必 着 
本 旺 FFEEEEEEHT 
tp 本 权 国 忆 已 写 二 砚 届 通 新 济 面 呈 放 

加 网 生生 避 避 上 人 


-和 二 - 


如 
人 


2QdaoRheR8gzRNSe 了 了 8 BEZ 8 


图 12-6 ”订阅 业务 的 客户 风险 概率 看 起 来 像 这 样 


该 曲线 有 一 些 值得 关注 的 特征 。 首 先 ， 它 开始 时 高 。 这 是 那些 注册 的 客户 ， 但 是 由 于 某 
种 技术 原因 不 能 开始 ， 诸 如 信用 卡 尚未 被 认可 。 在 某 些 情形 下 ， 客 户 没 有 认识 到 他 们 已 经 正 
式 注 册 一 一 这 是 在 打 往 外 地 的 电话 销售 活动 中 作者 最 经 常 遇 到 的 一 个 问题 。 

其 次 ， 有 一 个 M 形 特征 ， 大 约 在 9 周 和 11 周 有 两 个 峰值 。 第 一 个 峰值 ， 大 约 在 2 个 月 ， 
因为 没有 支付 产生 第 一 个 峰值 。 从 来 不 支付 账单 的 客户 ， 或 信用 卡 记 账 被 取消 的 客户 ， 由 于 没 
有 支付 ， 大 约 2 个 月 之 后 停止 。 由 于 显著 数量 的 客户 在 这 个 时 间 离 开 ， 风 险 概率 很 高 。 

“M” 的 第 二 个 峰值 与 提供 优惠 价格 的 初始 促销 活动 的 结束 相 一 致 。 典 型 地 ， 这 种 促销 
持续 大 约 3 个 月 之 久 ， 然 后 客户 必须 开始 支付 全 价 。 很 多 人 决定 他 们 不 再 需要 这 项 服务 。 极 
有 可 能 的 是 ， 这 些 客户 中 的 很 多 人 又 从 其 他 促销 活动 中 受益 ， 这 是 一 个 与 风险 相关 讨论 关系 
并 不 密切 ， 但 与 商业 有 关 的 重要 事实 。 

在 最 初 的 3 个 月 之 后 ， 风 险 函 数 不 再 有 真正 的 峰值 。 大 约 每 4 或 5 周 ， 有 一 个 小 的 周期 
性 峰值 ， 这 符合 每 月 付 账 的 周期 ， 客 户 可 能 是 在 收 到 账单 之 后 停止 的 。 

该 图 也 表明 风险 率 呈 缓和 下 降 趋势 。 这 种 下 降 是 一 件 好 事 ， 因 为 客户 保有 期 越 长， 客户 
越 不 可 能 离开 。 对 于 这 种 现象 的 另 一 种 表达 方法 是 : 客户 在 公司 停留 的 时 间 越 长 ， 忠 诚 度 
越 高 。 
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12.2.3 审查 


迄今 为 止 ， 对 风险 的 介绍 掩盖 了 生存 分 析 的 最 重要 的 概念 之 一 : 审查 〈censoring)。 记 
住 风险 概率 的 定义 是 ， 在 给 定 的 时 刻 上 停止 的 客户 数 除 以 该 时 刻 客 户 总 数 。 显 然 ， 如 果 一 位 
客户 在 时 刻 : 之 前 已 经 停止 ， 那 么 该 客户 不 包含 在 人 口 计数 中 ， 这 是 最 基本 的 审查 例子 。 已 
经 停止 的 客户 不 包括 在 他 们 停止 后 的 计算 中 。 

还 有 另 一 个 审查 的 例子 ， 它 有 些微 妙 。 考 虑 保有 期 为 上 但 当前 仍然 活动 的 客户 ， 这 些 客 
户 不 包括 在 保有 期 : 的 风险 人 口中 ， 因 为 客户 可 能 仍然 在 上 + 1 之 前 停止 一 一 今天 在 ， 明 天 
离开 。 这 些 客户 已 经 被 排除 在 特定 风险 计数 之 外 ， 尽 管 他 们 被 包含 在 上 为 较 小 值 的 风险 计算 
中 。 审 查 一 一 从 某 种 风险 计算 中 去 除 一 些 客户 一 一 被 证 明 是 一 项 强 有 力 的 技术 ， 对 很 多 生存 
分 析 至 关 重 要 。 

让 我 们 用 图 来 解释 这 一 点 。 图 12-7 展示 了 一 组 客户 及 其 客户 关系 的 开始 和 结束 。 特 别 
地 ， 结 束 用 一 个 空心 或 者 实心 的 小 圆圈 表示 。 当 圆圈 是 空心 的 时 候 ， 客 户 已 经 离开 ， 而 且 他 
们 的 准确 保有 期 是 已 知 的 一 一 因为 停止 日 期 已 知 。 


时 间 
图 12-7 ”开始 于 不 同时 间 的 客户 组 ， 一 些 客户 被 审查 ， 因 为 他 们 仍然 是 活跃 的 


实心 的 圆圈 意味 着 ， 客 户 已 经 保持 到 分 析 日 期 ， 因 此 停止 日 期 尚 不 知道 。 该 客户 或 
者 特别 是 该 客户 的 保有 期 一 一 被 审查 。 保 有 期 至 少 是 当前 的 保有 期 ， 但 是 可 能 更 大 。 到 底 允 
大 是 未 知 的 ， 因 为 该 客户 的 确切 停止 日 期 还 没 出 现 。 
下 面 略 过 这 些 客 户 的 风险 计算 ， 来 特别 关注 审查 的 任务 。 在 考察 客户 数据 进行 风险 计算 
时 ， 需 要 保有 期 和 审查 标记 。 对 于 图 12-7 的 客户 ， 表 12-2 给 出 了 这 些 数据 。 
表 12-2 ” 几 位 客户 的 保有 期 数据 
客户 审查 保 


期 


口上 wm 
之 必 之 必 之 又 
一 wm 上 | 让 
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考察 在 每 个 时 间 段 发 生 的 事情 具有 指导 意义 。 在 任何 时 间 点 ， 客 户 可 能 处 于 三 种 状态 之 
一 : 活跃 ， 即 关系 在 继续 ; 停止 ， 即 客户 在 那 段 时 间 停止 ; 审查 ， 即 客户 不 包含 在 计算 之 
中 。 表 12-3 展示 在 每 个 时 间 段 内 发 生 的 事情 。 


表 12-3 在 几 个 时 间 段 追踪 客户 


客 户 审查 客户 寿命 时 刻 0 时 刻 1 时 刻 2 时 刻 3 时 刻 4 时 刻 $ 
1 Y 5 活 牙 活跃 活 牙 活 牙 活 妈 活 妈 
2 N 4 活 牙 活路 活 牙 活跃 停止 审查 
3 N 3 活 牙 活路 活路 停止 审查 审查 
4 立 3 活跃 活 牙 活 牙 活 牙 审查 审查 
5 和 2 活 牙 活 妈 停止 审查 审查 审查 
6 Y 1 活 牙 活跃 审查 审查 审查 审查 
7 N 1 活路 停止 审查 审查 审查 审查 


注意 在 表 12-4 中 ， 审 查 的 发 生 时 间 比 生存 期 晚 一 个 时 间 单 元 。 即 客户 #1 生存 至 时 刻 
5$， 之 后 发 生 的 事情 是 未 知 的。 给 定时 间 的 风险 是 停止 的 客户 数 除 以 包括 活 牙 的 和 停止 的 所 
有 客户 总 数 。 
表 12-4 从 时 间 到 风险 


时 刻 0 时 刻 1 时 刻 2 时 刻 3 时 刻 4 时 刻 $ 
活跃 7 6 4 3 1 
停止 0 1 1 1 1 0 
审查 0 0 2 3 5 5 
风险 0% 14% 20% 2S% 50% 0% 


时 刻 1 的 风险 是 14% ， 因 为 7 位 客户 中 有 一 位 在 这 一 时 刻 停 止 ， 所 有 7 位 客户 都 保持 
到 时 刻 1， 尽 管 都 有 可 能 停止 ， 而 这 里 ， 只 有 一 位 停止 。 在 时 刻 2，5 位 客户 留 了 下 来 一 一 
客户 井 7 已 经 停止 ， 客 户 #6 被 审查 。 这 5 位 中 有 一 位 停止 ， 风 险 是 20% ， 其 余 的 不 再 缆 
述 。 本 例 说 明 当 考虑 到 一 些 (希望 许多 ) 客户 尚未 停止 的 事实 时 ， 如 何 计 算 风险 函数 。 

这 一 计算 也 表明 风险 高 低 是 不 稳定 的 一 一 在 最 后 3 天 内 从 25% 跳 妈 到 $S0% 又 到 0% 。 
通常 情况 下 ， 风 险 变化 不 会 这 么 大 。 这 种 不 稳定 ， 仅 仅 是 因为 这 个 简单 的 例子 中 包含 的 客户 
少 。 同 样 地 ， 在 表 中 对 客户 排队 ， 是 为 了 便于 展示 在 可 管理 的 数据 集 上 进行 的 计算 。 在 真实 
的 世界 中 ， 这 样 的 方法 是 不 可 行 的 ， 因 为 可 能 有 数 千 或 者 数 下 万 客户 要 记录 ， 并 且 保 有 期 可 
能 是 数 百 或 数 千 天 。 

另外 值得 一 提 的 是 ， 这 种 对 风险 的 处 理 是 把 它们 作为 条 件 概率 来 介绍 的 ， 其 值 介 于 0 和 
1 之 间 。 这 种 情况 是 可 能 的 ， 因 为 风险 使 用 像 天 数 或 周 数 这 样 的 不 连续 的 时 间 单 元 ， 这 是 一 
种 可 用 于 客户 相关 分 析 的 时 间 描 述 。 然 而 ， 统 计 学 家 时 常 采用 风险 率 代替 概率 ， 这 两 个 概念 
关系 显然 非常 密切 ， 但 是 使 用 比率 的 数学 方法 中 包括 使 人 旦 惧 的 积分 和 复杂 的 指数 函数 ， 并 
且 很 难 解释 对 于 这 个 或 者 那个 因素 的 调整 。 针 对 我 们 的 目的 ， 简 单 的 风险 概率 不 但 比较 容易 
解释 ， 而 且 也 能 解决 利用 客户 数据 进行 工作 时 出 现 的 问题 。 


12.2.4 其 他 类 型 的 审查 
前 面 的 小 节 介 绍 两 种 情况 下 的 审查 ; 客户 停止 后 的 风险 和 仍然 活 牙 的 客户 风险 。 还 有 一 
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些 其 他 有 用 的 情形 。 为 解释 其 他 类 型 的 审查 ， 请 返回 到 医学 领域 。 

假设 你 是 癌症 疾病 研究 人 员 ， 而 且 已 经 发 现 治疗 癌症 的 一 种 药物 。 这 时 你 必须 开展 一 项 
研究 ， 验 证 这 些 新 治疗 药物 是 否 起 作用 。 这 类 研究 通常 要 追踪 一 组 病人 治疗 之 后 的 几 年 时 
间 ， 如 $ 年 。 对 于 本 例 ， 只 需要 知道 病人 是 否 在 研究 期 间 死 于 瘤 症 〈 医 学 研究 还 有 其 他 需要 
关注 的 情况 ， 如 疾病 的 复发 ， 但 在 这 个 简单 的 例子 中 ， 我 们 不 考虑 这 类 问题 )。 

因此 你 找 出 100 位 病人 ， 给 予 相 应 的 治疗 ， 而 且 他 们 的 癌症 似乎 已 经 治愈 。 你 追踪 他 们 
几 年 时 间 ， 这 期 间 ， 七 位 病人 通过 去 冰岛 旅游 来 庆祝 新 生 。 在 一 件 可 怕 的 悲剧 中 ， 所 有 的 七 
位 病人 碰巧 死 于 由 水 下 火山 所 导致 的 一 次 雪 骨 。 你 的 治疗 对 瘤 症 死亡 率 的 有 效 性 是 多 少 ? 仅 
看 数据 而 言 ， 似 乎 有 一 个 7% 的 死亡 率 。 然 而 ， 这 个 死亡 率 显然 与 治疗 无 关 ， 因 此 感觉 结论 
并 不 正确 。 

事实 上 ， 答 案 的 确 不 正确 。 这 是 凤 险 竞争 的 一 个 例子 。 研 究 对 象 可 能 活着 ， 也 可 能 死 于 
癌症 ， 或 可 能 死 于 遥远 的 岛 上 发 生 的 登山 意外 事故 。 或 者 该 病人 可 能 移居 塔 希 提 岛 而 脱离 研 
究 ， 正 如 医学 研究 人 员 所 说 ， 这 位 病人 已 经 “没有 必要 追查 到 底 "”。 

解决 的 方法 是 审查 在 被 研究 事件 发 生 之 前 退出 研究 的 病人 。 如 果 病 人 退出 研究 ， 那 么 到 
他 们 离开 的 那 一 时 刻 之 前 病人 仍然 是 健康 的 ， 在 这 段 时 间 获 取 的 信息 能 用 来 计算 风险 ， 而 此 
后 无 法 知道 发 生 的 事情 。 它 们 在 退出 的 时 间 被 审查 ， 如 果 一 位 病人 死 于 其 他 情形 ， 他 或 她 在 
死亡 的 那 一 时 刻 被 审查 ， 而 且 该 死亡 不 包含 在 风险 计算 中 。 

提示 :; 处 理 竞争 风险 的 正确 方法 是 对 每 种 风险 设置 不 同 的 风险 组 ， 其 他 的 风险 被 审查 。 

在 商业 环境 中 ， 竞 争 风 险 也 非常 常见 。 例 如 ， 时 常 有 两 种 类 型 的 停止 : 客户 决定 离开 的 
自发 停止 和 公司 决定 该 客户 应 该 离开 的 强制 停止 一 一 时 常 是 由 于 没有 支付 账单 。 

在 分 析 自 发 流失 (voluntary churn) 时 ， 对 由 于 不 支付 账单 被 迫 停 止 客户 关系 的 客户 ， 
会 出 现 什 么 情况 ? 如 果 这 样 的 一 位 客户 被 迫 在 第 100 天 停止 ， 那 么 该 客户 在 1 至 99 天 就 没 
有 自发 地 停止 ， 这 些 数据 能 够 用 于 生成 自发 停止 的 风险 。 然 而 ， 从 第 100 天 开始 ， 客 户 被 审 
查 ， 如 图 12-8 所 示 。 即 使 他 们 已 经 由 于 其 他 的 理由 而 停止 ， 此 时 审查 客户 也 可 能 帮助 理解 
不 同类 型 的 停止 。 


这 两 位 客户 被 迫 离开 ， | 性 
因此 ， 他 们 在 流失 时 被 


审查 ， 而 不 被 认为 是 停 


止 的 。 上 
在 他 们 离开 之 前 的 所 有 数据 | 全 
都 包含 在 自发 流失 的 风险 函 

数 计算 之 中 ， 因 为 这 之 前 他 | 一 一 白 
们 一 直 是 客户 。 


本 
时 间 


图 12-8 使 用 审查 ， 使 开发 包含 强制 离开 的 客户 的 自发 流失 风险 模型 成 为 可 能 
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12.3 ”从 风险 到 生存 


本 章 从 保持 曲线 的 讨论 开始 。 利 用 风险 函数 ， 可 以 产生 一 条 非常 相似 的 曲线 ， 称 为 生存 
曲线 。 生 存 曲线 更 有 用 ， 并 且 在 很 多 意义 上 感觉 更 精确 。 


12.3.1 保持 


保持 曲线 提供 了 关于 在 某 一 段 时 间 内 保持 了 多 少 客户 的 信息 。 产 生 保持 曲线 的 一 个 通常 
的 方法 如 下 ; 

“对 1 工 周 之 前 开始 的 客户 ， 测 量 工 周 的 保持 ; 

“对 2 周 之 前 开始 的 客户 ， 测 量 2 周 的 保持 ; 

“ 依 此 类 推 。 

图 12-9 展示 了 基于 这 种 方法 的 一 条 保持 曲线 示例 。 该 曲线 的 总 体形 状 看 起 来 是 恰当 的 。 


然而 ， 曲 线 本 身 参 差 不 齐 ， 比 如 ， 看 起 来 很 奇怪 的 是 ， 数 据 显示 ，10 周 的 保持 会 比 9 周 的 
保持 更 好 。 


了 
Cs 


保有 期 ( 周 数 ) 
图 12-9 一 条 保持 曲线 可 能 参差 不 齐 


事实 上 ， 不 止 是 形状 奇怪 ， 它 违犯 了 保持 的 最 主要 的 观念 。 例 如 ， 它 开启 了 曲线 将 会 多 
次 与 30% 的 闪 值 相交 的 可 能 性 ， 导 致 怪异 的 、 不 准确 的 结论 一 有 不 止 一 个 中 值 生存 期 ， 
或 者 是 ， 在 客户 关系 开始 后 ,前 10 周 的 平均 客户 保持 可 能 超过 前 9 周 的 平均 值 。 这 是 怎么 
同事 ? 难道 客户 转世 重生 了 ? 

这 些 问题 是 在 产生 曲线 的 过 程 中 人 为 造成 的 。 任 何 给 定时 间 段 获取 的 客户 可 能 比 其 他 时 
间 段 获取 的 客户 更 好 ， 也 可 能 更 差 。 例 如 ， 也 许 9 周 前 ， 有 一 个 特殊 优惠 价格 服务 引入 了 差 
的 客户 ， 而 在 10 局 以 前 开始 的 客户 是 好 的 和 差 的 混合 体 ， 但 是 那些 9 周 以 前 开始 的 客户 特 
别 差 。 因 此 ，9 周 以 后 差 的 客户 少 于 10 周 后 较 好 的 客户 。 

客户 的 质量 也 可 能 仅仅 由 于 随机 变化 而 发 生 改 变 。 毕 竟 ， 在 前 面 的 图 中 ， 考 虑 的 是 100 
多 个 时 间 段 一 一 因此 所 有 的 事情 都 是 平等 的 ， 有 些 时 间 段 预期 会 有 所 差异 。 

一 个 复杂 的 原因 是 ， 市 场 车 销 工作 随 着 时 间 而 变化 ， 从 而 吸引 不 同 质量 的 客户 。 例 如 ， 来 自 
不 同 洪 道 的 客户 通常 有 不 同 的 保持 特征 ， 并 且 来 自 不 同 渠 道 的 客户 混合 体 可 能 随时 间 而 改变 。 
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12.3.2 生存 


风险 给 出 了 客户 可 能 在 某 个 时 间 点 停止 的 概率 。 另 一 方面 ， 生 存 提 供 客户 保持 到 该 时 间 
点 的 概率 ， 生 存 值 可 以 直接 从 风险 来 计算 。 

在 任何 时 间 点 ， 客 户 生 存 到 下 一 个 时 间 单 元 的 机 会 简单 地 说 就 是 1- 风 险 ， 称 为 时 刻 上 的 
条 件 生存 〈 它 是 有 条 件 的 ， 因 为 它 假 设 客户 生存 到 时 刻 上 )。 计 算 给 定时 间 的 全 部 生存 需要 
累积 到 该 时 间 点 的 所 有 条 件 生存 ， 把 它们 相 乘 。 生 存 值 在 时 刻 0 的 初 值 为 1 (或 100%)， 因 
为 在 分 析 中 所 有 客户 在 分 析 的 开始 都 生存 。 

因为 风险 总 是 介 于 0 和 1 之 间 ， 所 以 条 件 生存 也 是 处 于 0 和 1 之 间 。 因 此 ， 生 存 本 身 总 
是 在 变 小 一 一 因为 每 个 相继 的 值 都 乘 以 一 个 小 于 1 的 数 。 生 存 曲 线 从 1 开始 ， 逐 渐 地 下 降 ， 
有 时 可 能 变 平 ， 也 可 能 消失 ， 但 是 从 不 上 升 。 

对 于 客户 保持 目的 来 说 ， 生 存 曲线 比 前 面 描述 的 保持 曲线 更 有 意义 。 图 12-10 展示 一 条 
生存 曲线 和 相应 的 保持 曲线 。 显 然 生存 曲 线 是 平滑 的 ， 而 且 一 直下 降 ， 而 保持 曲线 在 所 有 位 
置 上 下 跳 妈 。 


10095e 
390% 


保持 /生存 


保有 期 ( 周 数 ) 


图 12-10 生存 曲线 比 保持 曲线 更 平滑 


初 看 起 来 ， 保 持 曲线 和 生存 曲线 的 差别 可 能 不 是 直观 的 。 保 持 曲线 实际 上 是 把 从 过 去 开 
始 的 一 整 串 客 户 的 不 同 图 像 粘 贴 到 一 起 ， 就 像 由 一 串 不 同 的 照片 拼凑 成 的 抽象 拼 贴 画 而 得 到 
的 一 幅 全 景 图 。 在 抽象 拼 贴画 中 ， 每 张 照片 中 的 图 像 都 相当 清晰 ， 然 而 边界 未 必 平 滑 地 过 
渡 。 抽 象 拼 贴画 的 不 同 照 片 看 起 来 是 不 同 的 ， 这 种 不 同 是 因为 光线 不 同 或 者 归 因 于 抽象 拼 贴 
画 美学 的 视图 差异 。 

同样 的 事情 在 保持 曲线 中 也 会 遇 到 ， 在 保持 曲线 中 ， 开 始 于 不 同时 间 点 的 客户 有 不 同 的 
视角 。 保 持 曲线 上 的 任何 给 定点 都 接近 真实 的 保持 值 ; 然而 ， 作 为 一 个 整体 ， 它 看 起 来 参差 
不 齐 。 一 种 除去 参差 不 齐 的 方法 是 关注 同时 开始 的 客户 ， 就 像 本 章 前 面 建议 的 那样 。 然 而 ， 
这 大 大 减少 了 作用 于 曲线 的 数据 量 。 

提示 : 不 要 使 用 保持 曲线 ， 使 用 生存 曲线 。 即 首先 计算 风险 ， 然 后 回来 计算 生存 

曲线 。 

另 一 方面 ， 生 存 曲线 可 以 考察 尽 可 能 多 的 客户 ， 而 不 仅 是 恰好 ”个 时 间 段 之 前 开始 的 
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那些 客户 。 任 何 给 定时 刻 : 的 生存 就 利用 了 来 自 所 有 客户 的 信息 。 在 时 刻 的 风险 使 用 保有 
期 大 于 等 于 该 值 的 所 有 客户 的 信息 (假设 所 有 人 都 在 风险 人 口中 ); 然而 ， 生 存 是 从 上 的 较 
小 值 开 始 ， 结 合 风险 的 所 有 信息 来 计算 的 。 

因为 生存 计算 使 用 所 有 的 数据 ， 所 以 得 到 的 值 比 保持 计算 更 稳定 。 保 持 曲 线 的 每 个 点 把 
客户 限制 在 开始 于 某 个 特定 时 间 。 另 外 ， 由 于 生存 曲线 总 是 呈 下 降 趋势 ， 所 以 客户 半衰期 和 
平均 客户 保有 期 的 计算 更 精确 。 通 过 合并 较 多 的 数据 ， 生 存 可 以 提供 关于 客户 保持 的 更 精确 
平滑 的 图 像 。 

当 分 析 客 户 时 ， 风 险 和 生存 都 提供 了 关于 客户 的 有 价值 的 信息 。 因 为 生存 是 累积 的 ， 它 给 
出 了 比较 不 同 群体 客户 的 好 的 概要 数值 : 对 于 不 同 的 群体 ，! 年 的 生存 比较 情况 如 何 ?” 生存 也 
用 作 计 算 客 户 的 半衰期 和 均值 客户 保有 期 ， 从 而 反 过 来 馈 人 其 他 的 计算 ， 如 客户 价值 等 。 

生存 是 累积 的 ， 很 难看 到 特定 时 间 点 的 模式 。 而 风险 使 特殊 的 原因 变 得 更 加 明显 。 当 讨 
论 一 些 现 实 世界 的 风险 时 ， 有 可 能 识别 出 客户 生存 周期 中 增加 风险 的 事件 ， 生 存 曲线 对 这 些 
事件 的 突显 不 像 风险 那么 清楚 。 

在 比较 不 同 客户 群体 的 风险 时 也 可 能 发 现 ， 比 较 一 段 时 间 的 平均 风险 没有 意义 。 从 数学 
的 角度 看 , “平均 风险 ”没有 意义 ， 正 确 的 方法 是 将 风险 转变 成 生存 ， 在 生存 曲线 上 比较 那 
些 值 。 

迄今 为 止 给 出 的 风险 和 生存 的 描述 与 统计 学 中 对 这 一 问题 的 处 理 略 有 不 同 。 下 面 “ 关 于 
生存 分 析 和 统计 学 的 注解 ”部 分 更 进一步 解释 这 种 差异 。 

关于 生存 分 析 和 统计 学 的 注解 

本 章 中 关于 生存 分 析 的 讨论 假设 时 间 是 不 连续 的 。 尤 其 ， 事 件 发 生 在 某 些 特别 的 日 期 ， 
而 那 一 天 是 哪个 特别 时 间 并 不 重要 。 这 不 仅 对 于 数据 挖掘 所 提出 的 问题 是 合理 的 ， 它 看 起 来 
也 更 直观 ， 而 且 也 简化 了 数学 问题 。 

但 在 统计 学 中 ， 生 存 分 析 做 出 的 是 相反 的 假定 : 时 间 是 连续 的 。 统 计 学 家 使 用 的 不 是 风 
险 概 率 ， 而 是 风险 比率 ， 使 用 指数 和 加 和 把 它 转 化 为 生存 曲线 。 在 比率 和 概率 之 间 的 一 种 区 
别 是 比率 值 会 大 于 1， 然而 概率 永远 不 会 。 同 时 ， 比 率 对 碰 到 的 许多 客户 生存 问题 看 上 去 不 
那么 直观 。 

本 章 计算 风险 的 方法 称 为 寿命 表格 法 ， 且 它 对 于 不 连续 的 时 间 数 据 工作 良好 ， 另 一 个 非 
常 相似 的 方法 称 为 Kaplan-Meier 法 ， 常 用 于 连续 时 间 数 据 ， 当 事件 的 发 生 时 间 不 连续 时 ， 
这 两 种 技术 几乎 产生 同样 的 结果 。 

统计 生存 分 析 的 一 个 重要 部 分 是 利用 参数 化 回归 方法 进行 风险 估计 一 一 试图 从 风险 中 找 
到 最 好 的 函数 形式 ， 这 是 另外 一 种 可 选择 的 方法 ， 它 可 以 从 数据 中 直接 计算 风险 。 

这 种 参数 化 方法 的 重要 优势 是 它 能 够 更 容易 地 把 共同 变量 包括 到 处 理 过 程 中 。 本 章 稍 后 
有 一 个 基于 这 种 参数 化 模型 的 例子 。 不 幸 的 是 ， 风 险 函 数 很 少 遵 循 非 统计 学 家 熟悉 的 形式 。 
风险 对 于 描述 客户 寿命 周期 非常 好 ， 因 而 如 果 一 个 简单 的 函数 可 以 捕捉 到 如 此 丰富 的 复杂 事 
物 ， 那 将 会 令 人 非常 吃惊 。 

我 们 强烈 辟 励 有 数学 或 统计 学 背景 的 读者 在 该 领域 进行 更 深入 的 研究 。 


12.4 比例 风险 
David Cox 员 士 是 20 世纪 最 权威 的 统计 学 家 之 一 ， 他 的 著作 包括 许多 书籍 和 250 多 篇 论 
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文 。 他 获得 过 许多 奖项 ， 包 括 1985 年 伊 丽 藻 白 女 王 颁发 的 锁 士 头衔 。 他 的 很 多 研究 内 容 是 
以 理解 风险 函数 为 中 心 ， 而 且 他 的 工作 在 世界 医学 研究 领域 有 着 特殊 的 地 位 。 

他 的 开创 性 论文 是 关于 在 风险 方面 确定 最 初 因素 〈 零 时 共同 变量 ) 的 影响 。 假 定 这 些 最 
初 的 因素 在 风险 方面 有 一 个 统一 的 比例 效应 ， 他 能 够 找 出 如 何 测量 不 同 因素 的 影响 ， 本 节 的 
目的 是 介绍 比例 风险 ， 理 解 它们 对 于 理解 客户 非常 有 用 。 本 节 首 先 用 实例 说 明 为 什么 比例 风 
险 有 用 ， 然 后 介绍 另 一 个 替代 的 方法 ， 最 后 回 到 Cox 模型 本 身 的 讨论 。 


12.4.1 比例 风险 实例 


考虑 下 列 一 个 关于 吸烟 危险 的 陈述 : 吸烟 者 得 白血病 的 风险 比 不 吸烟 者 高 1.$3 倍 ， 该 
结果 是 一 个 关于 比例 风险 的 著名 实例 。 在 研究 这 个 问题 的 时 候 ， 研 究 者 已 经 知道 某 人 是 否 是 
吸烟 者 〈 事 实 上 ， 还 存在 第 三 组 ， 即 从 前 吸烟 者 ， 但 我 们 这 里 的 目的 是 举例 说 明 一 个 实例 )。 
某 人 是 否 是 吸烟 者 是 一 个 初始 条 件 的 例子 ， 因 为 只 有 两 个 可 考虑 的 因素 ， 所 以 可 以 仅仅 看 一 
下 风险 曲线 ， 就 可 以 得 到 总 风险 的 某 种 平均 值 。 

图 12-11 提供 了 一 个 来 自 市 场 销 售 界 的 图 示 ,， 它 显示 了 两 个 风险 概率 集合 ， 一 个 是 受 电 
话 诱惑 加 入 的 客户 ， 另 一 个 是 通过 直接 邮寄 加 入 的 客户 。 再 次 强调 ， 某 个 人 如 何 成 为 一 位 客 
户 是 一 个 初始 条 件 的 例子 。 电 话 推销 客户 的 风险 是 非常 高 的 ， 观 察 一 下 图 表 可 以 发 现 ， 电 话 
推销 客户 的 风险 比 直接 邮寄 客户 几乎 高 出 两 倍 。Cox 比例 风险 回 好 提供 了 量化 这 个 问题 的 
方法 。 


0 10 20 30 


40 
保有 期 ( 周 数 ) 
图 12-11 这 两 个 风险 函数 显示 ， 通 过 电话 推销 获得 的 客户 流失 风险 大 约 比 直接 邮寄 高 1.5 倍 
刚刚 提 到 的 两 个 例子 使 用 分 类 变量 作为 风险 因子 。 我 们 可 以 考虑 另外 一 个 关于 香烟 风险 的 


陈述 ; 每 年 每 吸食 一 包 香 烟 ， 得 结肠 癌 的 风险 率 就 增加 6.7% 。 这 一 陈述 与 前 例 不 同 ， 因 为 它 
现在 取决 于 一 个 连续 变量 。 应 用 比例 风险 ， 可 能 确定 分 类 变量 及 连续 变量 二 者 的 贡献 大 小 。 


12.4.2 分 层 : 测量 生存 的 初始 结果 


图 12-11 显示 了 两 个 不 同 客户 群 组 的 风险 概率 ， 一 个 是 电话 推销 活动 ， 另 一 个 是 直接 邮 
寄 营销 活动 ， 这 两 条 曲线 清楚 地 显示 了 两 种 渠道 之 间 的 区 别 。 利 用 1 年 生存 期 、 中 值 生存 期 
或 平均 截 短 保 有 期 ， 可 以 为 这 些 风险 生成 一 条 生存 曲线 ， 并 量化 这 种 差别 。 这 种 测量 按照 初 
始 条 件 定义 的 不 同 组 之 间 差 别 的 方法 ， 被 称 为 分 层 ， 因 为 每 一 组 的 分 析 均 是 独立 于 其 他 组 进 
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行 的 ， 这 样 就 产生 好 的 可 视 化 且 精 确 的 生存 值 。 这 当然 也 很 容易 ， 因 为 一 些 统计 包 ， 如 SAS 
和 SPSS， 有 这 样 的 选项 ， 这 些 选 项 使 得 为 这 一 目的 给 数据 分 层 变 得 很 容易 。 

分 层 解 决 了 假定 两 种 条 件 为 真 时 ， 理 解 初 始 结果 的 问题 。 首 先 ， 初 始 结果 必须 是 一 个 分 
类 变量 ， 因 为 这 些 数据 必须 被 分 解 为 独立 的 群 组 ， 某 些 变量 如 渠道 、 产 品 或 区 域 等 ， 需 要 被 
选择 用 于 这 一 目的 。 当 然 ， 使 用 归档 将 连续 变量 分 解 为 不 连续 块 也 总 是 可 以 的 。 

第 二 ， 每 个 群 组 必须 相当 大 ， 当 开始 使 用 许多 客户 且 仅 用 一 个 取 人 少数 几 个 值 的 变量 〈 如 
渠道 ) 时 ， 这 不 成 问题 。 然 而 ， 可 能 存在 令 人 感 兴趣 的 多 重 变量 ， 如 : 

。 获取 渠道 

“初始 提升 

“* 地 理 状况 

一 且 包 括 一 个 以 上 的 维 ， 分 类 的 数目 会 增加 很 快 ， 这 意味 着 数据 会 逐渐 稀疏 地 展开 ， 使 
风险 估算 变 得 越 来 越 不 可 靠 。 


12.4.3 Cox 比例 风险 


1972 年 ，David Cox 贸 士 发 现 了 这 个 问题 ， 并 提出 一 个 分 析 方 法 ， 现 在 我 们 称 之 为 Cox 
比例 风险 回归 法 〈Cox proportional hazards regression) ， 这 种 方法 克服 了 这 些 局 限 性 。 他 杰出 
的 洞察 力 就 是 找到 了 一 种 方法 以 关注 初始 条 件 而 不 是 风险 本 身 ， 这 个 问题 是 : 初始 条 件 对 于 
风险 会 有 什么 样 的 影响 ? 他 解决 这 个 问题 的 方法 非常 耐人寻味 。 

幸运 的 是 ， 这 一 想法 比 他 解决 该 问题 的 数学 方法 更 简单 ， 他 关注 的 不 是 风险 ， 而 是 引 人 
了 局 部 可 能 性 的 思想 。 假 定 在 给 定 的 时 间 上 内 只 有 一 位 客户 停止 ， 那 么 在 时 间 上 内 的 局 部 可 
能 性 就 正好 是 那个 特定 客户 停止 的 可 能 性 。 

对 局 部 可 能 性 的 计算 是 用 代表 某 个 特定 客户 停止 风险 的 任何 函数 或 数值 除 以 该 时 间 内 可 
能 停止 的 所 有 客户 风险 总 和 。 如 果 所 有 客户 具有 相同 的 风险 比率 ， 那 么 ， 这 个 比率 将 会 是 一 
个 常数 〈1 除 以 那个 时 间 点 的 总 人 口 )。 然 而 ， 风 险 不 是 常数 ， 但 愿 是 某 些 初始 条 件 的 函数 。 

Cox 做 的 一 个 假设 是 初始 条 件 对 于 所 有 风险 有 一 个 不 变 的 影响 ， 不 考虑 风险 随时 间 的 变 
化 。 局 部 可 能 性 是 一 个 比率 ， 比 例 性 假定 的 意思 是 ， 无 论 风 险 是 什么 ， 风 险 都 会 同时 出 现在 
分 子 和 分 母 中 ， 基 于 初始 条 件 乘 以 一 个 复杂 的 表达 式 ， 结 果 就 是 一 个 包含 初始 条 件 的 复杂 
学 公式 。 风 险 本 身 已 经 从 局 部 可 能 性 消失 ， 它 们 彼此 完全 抵消 。 

下 一 步 是 应 用 所 有 停止 客户 的 局 部 可 能 性 来 得 到 这 些 特定 客户 停止 的 总 体 可 能 性 ， 所 有 
的 这 些 局 部 可 能 性 的 乘积 表示 : 当 客 户 确实 停止 时 ， 准 确 观察 到 停止 客户 停止 过 程 中 一 个 特 
定 集合 的 可 能 性 。 方 便 的 是 ， 这 种 可 能 性 也 可 以 仅仅 表示 成 初始 条 件 的 函数 ， 而 不 是 风险 的 
函数 ， 风 险 可 能 是 未 知 的 。 

幸运 的 是 ， 有 一 个 称 为 极 大 似 然 估 计 的 统计 学 领域 ， 即 当 给 出 一 个 类 似 事件 的 复杂 表达 
式 时 ， 它 可 以 找到 参数 值 ， 使 得 结果 成 为 最 大 可 能 。 这 些 参数 值 可 方便 地 表现 出 这 些 初始 值 
对 于 风险 的 影响 。 作 为 一 个 额外 的 奖励 ， 这 种 技术 可 同时 用 于 连续 数值 及 分 类 数值 ， 而 分 层 
法 仅 适 用 于 分 类 数值 。 


12.4.4 比例 风险 的 局 限 性 
Cox 比例 风险 回归 法 是 非常 有 力 且 非 常 智慧 的 方法 ， 但 也 有 其 局 限 性 。 为 了 让 该 方法 工 
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作 良 好 ，Cox 不 得 不 做 出 许多 假设 。 他 围绕 连续 时 间 风 险 设计 他 的 方法 ， 而 且 假 设 在 任何 给 
定 的 时 间 内 只 有 一 位 客户 停止 。 通 过 某 些 调整 ， 比 例 风险 回归 的 实施 通常 对 不 连续 时 间 风 险 
有 用 ， 而 且 可 以 在 同一 时 间 内 处 理 多 重 停止 。 

警告 : Cox 比例 风险 回归 把 初始 条 件 对 于 整个 风险 函数 的 影响 分 级 和 量化 。 然 而 ， 

该 结果 高 度 依赖 于 通常 可 疑 的 假设 ， 即 初始 条 件 对 于 风险 在 整个 时 间 内 都 有 不 变 的 

影响 。 所 以 使 用 它 要 小 心 。 

在 比例 风险 模型 中 最 大 的 假设 是 对 比例 本 身 的 假设 ， 即 ， 初 始 条 件 对 于 风险 的 影响 不 具 
有 时 间 成 份 。 实 际 上 ， 完 全 不 是 这 样 的 。 即 使 曾经 有 过 ， 初 始 条 件 也 很 少 会 有 如 此 完美 的 比 
例 ， 即 便 是 在 科学 领域 。 在 市 场 营销 领域 ， 可 能 性 甚至 更 小 ， 市 场 营销 不 是 一 个 可 控制 的 实 
验 ， 情 况 一 直 在 发 生变 化 ， 新 的 计划 、 定 价 变化 及 竞争 时 常 发 生 。 

坏 消 息 是 ， 考 虑 到 整个 过 程 的 不 同 影响 ， 没 有 一 个 简单 算法 可 以 解释 初始 条 件 ; 好 消息 
征 ， 这 通常 没有 什么 差别 。 即 使 利用 比例 假设 ，Cox 回归 在 以 下 方面 仍 工作 良好 ， 即 决定 哪 
些 共 同 变量 对 于 风险 有 一 个 大 的 影响 ， 换 句 话说 ， 它 在 解释 什么 样 的 初始 条 件 与 客户 离开 是 
相互 关联 方面 工作 良好 。 

Cox 的 方法 只 为 零 时 共同 变量 设计 的 ， 就 像 统计 学 家 所 说 的 初始 值 。 这 种 方法 已 经 扩展 
为 处 理 在 客户 生存 期 发 生 的 事件 ， 比 如 他 们 是 否 升级 产品 或 有 所 抱怨 。 用 统计 学 的 术语 来 
说 ， 这 些 都 是 依赖 时 间 的 共同 变量 ， 是 指 附加 因素 在 客户 保有 期 内 的 任 一 点 都 可 能 发 生 ， 而 
不 仅 在 关系 的 初期 。 这 样 的 因素 可 能 是 客户 对 保持 活动 的 响应 或 客户 的 抱怨 。 由 于 Cox 的 
开创 性 工作 ， 他 和 其 他 一 些 统计 学 家 已 经 拓展 这 项 技术 ， 使 其 包括 这 些 类 型 的 因素 。 


12.5 生存 分 析 实 践 


从 客户 保持 的 角度 来 看 ， 对 于 了 解 客户 及 量化 市 场 营销 工作 来 说 ， 生 存 分 析 已 经 被 证 明 
是 非常 有 用 的 ， 它 提供 一 种 方法 来 估算 在 某 些 事情 发 生前 它 将 保持 多 长 时 间 。 本 节 将 给 出 一 
些 生存 分 析 的 特殊 实例 。 


12.5.1 处 理 不 同 的 流失 类 型 


与 客户 打交道 的 公司 必然 会 涉及 到 由 于 各 种 原因 造成 的 客户 离 去 ， 在 本 章 前 面 的 部 分 ， 
已 经 描述 了 风险 概率 ， 解 释 风险 如 何曾 明 那 些 影响 客户 生存 周期 的 企业 各 个 方面 。 特 别 是 ， 
风险 峰值 与 强制 那些 没有 付 清 账单 的 客户 尽快 离 去 的 商业 过 程 是 相 一 致 的 。 

由 于 这 些 客户 需要 不 同 地 对 待 ， 将 他 们 从 风险 计算 中 完全 移 除 的 尝试 是 错误 的 方法 ， 问 
题 在 于 ， 只 有 在 客户 已 经 被 迫 停 止 之 后 ， 才 会 知道 要 移 去 哪些 客户 。 就 像 前 面 提 到 的 ， 应 用 
在 客户 关系 结束 时 获得 的 知识 来 过 滤 即 将 分 析 的 客户 ， 不 是 一 个 好 主意 。 

正确 的 方法 是 把 这 个 问题 分 解 为 两 个 问题 : 自发 流失 的 风险 是 什么 ? 强制 流失 的 风险 是 
什么 ? 其 中 每 一 个 问题 都 使 用 所 有 的 客户 ， 审 查 由 于 其 他 因素 离开 的 客户 。 当 计算 自发 流失 
的 风险 时 ， 无 论 客户 何 时 被 强迫 离开 ， 该 客户 仍 包括 在 分 析 过 程 中 直到 他 或 她 离开 为 止 一 一 
在 那 一 点 ， 该 客户 被 审查 。 这 是 有 道理 的 ， 因 为 一 直到 客户 被 迫 离开 这 一 刻 ， 该 客户 都 没有 
主动 离开 。 

这 一 方法 可 以 进行 拓展 以 便 用 于 其 他 目的 。 以 前 ， 本 书 的 作者 试图 了 解 一 家 报纸 的 不 同 
客户 组 ， 特 别 是 ， 按 照 获取 渠道 进行 的 生存 分 析 如 何 按时 间 改 变 或 者 不 变 。 不 幸 的 是 ， 在 一 
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个 时 期 内 ， 发 生 了 一 次 联合 抵制 这 份 报纸 的 活动 ， 在 那 段 时 间 总 体 停止 水 平 提高 了 。 训 无 疑 
问 ， 这 段 时 间 风 险 上 升 ， 生 存 降低 。 

有 方法 来 考虑 这 些 特殊 的 停止 吗 ? 回答 是 肯定 的 ， 因 为 公司 很 好 地 记录 了 客户 停止 的 原 
因 。 那 些 联合 抵制 该 报 的 客户 在 停止 的 当天 被 简单 地 进行 了 审查 一 一 正如 在 医学 界 所 说 的 ， 
这 些 客户 已 经 没有 必要 追查 到 底 。 通 过 审查 ， 可 能 得 到 一 个 在 没有 联合 抵制 的 情况 下 对 总 体 
风险 的 准确 估计 。 
12.5.2 客户 何 时 会 回来 

迄今 为 止 ， 对 于 生存 分 析 的 讨论 一 直 聚 焦 在 客户 关系 的 结束 。 除 了 预测 坏事 情 发 生 的 概 
率 之 外 ， 生 存 分 析 还 可 用 于 许多 事情 ， 例 如 ， 可 用 于 估计 客户 停止 后 何 时 会 返回 。 


图 12-12 显示 了 一 条 生存 曲线 ， 展 示 了 客户 在 停止 使 用 移动 电话 服务 之 后 再 次 启用 的 风 
险 。 在 这 个 实例 中 ， 风 险 是 一 个 给 定 停 用 天 数 后 客户 返回 的 概率 。 


已 
梁 


生存 【保持 不 活跃 状态 ) 
风险 比例 (重新 激活 的 风险 ) 


mr 人 9 
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图 12-12 ”移动 电话 客户 重新 激活 的 生存 曲线 〈 较 高 的 曲线 ) 和 风险 曲线 〈 较 低 的 曲线 ) 


这 些 曲线 有 几 个 重要 的 特征 。 首 先 ， 最 初 的 重新 激活 比率 是 非常 高 的 。 在 第 一 周 内 ， 超 
过 三 分 之 一 的 客户 重新 激活 。 商 业 规 则 可 以 解释 这 一 现象 ， 许 多 停机 是 因为 客户 没有 支付 账 
单 ， 这 些 客 户 中 的 大 部 分 仅仅 是 坚持 到 最 后 一 刻 一 一 他 们 实际 上 想 保 留 电 话 ， 只 是 不 喜欢 支 
付 账单 。 然 而 一 旦 电话 被 停机 ， 他 们 便 很 快 付 清 全 部 账单 。 

90 天 以 后 ， 风 险 实 际 上 等 于 0 一 一 客户 不 能 再 激活 。 商 业 过 程 又 一 次 提供 了 指导 : 电话 
号 码 在 客户 离开 以 后 会 保留 90 天 。 通 常 地 ， 当 客户 重新 激活 使 用 ， 他 们 希望 保留 同一 个 电 
话 号 码 ， 而 90 天 以 后 ， 号 码 可 能 已 被 重新 分 配 ， 客 户 可 能 会 得 到 一 个 新 号 码 。 

这 项 讨论 掩饰 了 一 个 问题 ， 那 就 是 ， 新 的 〈 重 新 激活 ) 客户 是 如 何 与 过 期 账户 相关 联 
的 。 在 这 个 实例 中 ， 分 析 过 程 把 电话 号 码 与 一 个 账户 D 关联 使 用 。 这 非常 好 地 保证 了 匹配 
的 准确 性 ， 因 为 重新 激活 客户 保留 了 他 们 的 电话 号 码 及 账单 信息 。 这 有 些 保 守 ， 但 对 于 找到 
重新 激活 的 情况 是 起 作用 的 。 它 对 于 找到 其 他 类 型 的 赢 回 情况 不 起 作用 ， 比 如 那些 为 了 得 到 
初期 折扣 而 愿意 更 换 电话 号 码 的 客户 。 

另 一 种 方法 是 试图 识别 不 同 个 体 随 时 间 的 变化 情况 ， 即 使 他 们 属于 不 同 的 账户 。 对 于 那 
些 把 收集 社会 安全 号 (Social Security Number，SSN) 或 驾驶 执照 号 码 作为 其 业务 领域 的 常 


人 
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规 部 分 的 商务 来 说 ， 这 样 识 别 的 号 码 能 够 与 账户 随时 间 的 变化 情况 连接 起 来 〈 要 知道 ， 并 不 
是 每 个 被 要 求 提供 这 种 识别 信息 的 人 都 做 得 那么 准确 )。 有 时 候 ， 匹 配 姓名 、 住 址 、 电 话 号 
码 及 (或 ) 信用 卡 对 于 匹配 目的 就 足够 了 。 但 更 通常 的 情况 是 ， 这 项 任务 被 转 包 给 一 家 分 配 
个 人 和 家 庭 ID 的 公司 ， 然 后 提供 需要 的 识别 信息 ， 找 出 哪些 新 客户 是 已 经 被 赢 回 的 真正 的 
前 客户 。 
研究 初始 共同 变量 增加 了 更 多 的 信息 ， 在 这 种 情况 下 , “初始 ”的 意思 是 关于 客户 停止 
活动 所 在 点 的 任何 已 知 信息 。 这 不 仅 包括 像 初 始 产品 和 促销 信息 ， 也 包括 客户 在 停止 活动 之 
前 的 行为 。 牢 双 满 腹 的 客户 是 更 可 能 还 是 更 不 可 能 重新 激活 ? 漫游 的 客户 怎样 呢 ? 迟 付 账单 
的 客户 呢 ? 
这 一 实例 显示 了 利用 风险 了 解 一 个 经 典 的 “时 间 事 件 ” 问 题 。 生 存 分 析 能 够 处 理 的 其 他 
一 些 此 类 问题 是 : 
。 如 果 客 户 开始 于 一 个 最 低 费 率 计 划 ， 在 他 们 升级 到 高 级 费 率 计划 之 前 要 多 长 时 间 ? 
。 客 户 何 时 会 升级 到 一 个 高 级 费 率 计划 ， 在 他 们 降级 之 前 会 有 多 长 时 间 ”? 
。 已 知 过 去 的 客户 行为 和 不 同 的 客户 有 不 同 的 购买 周期 的 事实 ， 客 户 购买 时 间 间 隔 预 期 
有 多 长 ? 
利用 生存 分 析 的 一 人 
时 间 里 一 位 客户 访问 过 的 次 数 。 人 人生 辣 下 让 
影响 ， 包 括 哪 种 干预 是 最 可 能 还 是 最 不 可 能 起 作用 。 


12.5.3 预测 


生存 分 析 的 另 一 个 重要 的 应 用 是 预测 未 来 客户 的 数目 ， 或 者 说 ， 在 未 来 给 定 的 一 天 中 停 
止 的 客户 数目 。 总 体 来 说 ， 对 于 估计 在 给 定 的 时 间 长 度 内 有 多 少 客户 将 会 保留 ， 生 存 分 析 是 
很 有 效 的 。 

对 于 任何 这 样 的 预测 都 有 两 个 组 成 要 素 ， 第 一 是 一 个 当前 客户 模型 ， 它 可 以 考虑 到 客户 
生存 周期 期 间 多 种 共同 变量 。 这 样 的 模型 通过 把 一 个 或 者 多 个 生存 模型 应 用 到 所 有 客户 而 工 
作 。 如 果 一 位 客户 已 经 存在 了 100 天 ， 那 么 明天 停止 的 概率 就 是 第 100 天 的 风险 。 为 了 计算 
后 天 停止 的 可 能 性 ， 首 先 假定 客户 在 明天 不 停止 ， 然 后 在 第 101 天 确实 停止 ， 则 后 天 停止 的 


这 个 概念 应 用 到 所 有 客户 保有 期 ， 就 可 能 预测 现 有 客户 未 来 的 停止 情况 。 

图 12-13 显示 了 这 样 一 个 对 1 个 月 内 停止 的 预测 ， 它 是 由 生存 专家 鸡 岂 Potts 开发 的 ， 
同时 给 出 的 还 有 在 这 段 时 期 观察 到 的 真实 值 ， 以 生存 为 基础 的 预测 被 证 明 与 实际 发 生 的 事情 
相当 接近 。 顺 便 说 一 句 ， 这 种 特殊 生存 估计 使 用 一 个 风险 参数 模型 ， 而 不 是 经 验 的 风险 估 
计 ， 该 模型 能 够 考虑 到 每 周 的 不 同 工 作 日 。 周 循环 中 停止 情况 的 结果 在 图 中 可 以 很 明显 
看 出 。 

客户 层次 的 预测 的 第 二 个 组 成 要 素 要 计算 起 来 有 一 点 困难 ， 这 个 要 素 就 是 新 客户 对 预测 的 
影响 ， 但 困难 不 是 来 自 技术 上 的 。 我 们 所 面临 的 挑战 是 对 新 的 起 点 进行 估计 。 幸 运 的 是 ， 通 常 
的 预算 预测 包含 新 的 起 点 ， 有 时 按 产品 、 渠 道 或 者 地 理 状况 等 分 解 。 把 这 些 影 响 考 虑 进来 对 生 
存 模 型 进行 精 修 是 可 能 的 ， 当 然 ， 这 种 预测 的 准确 性 只 能 与 预算 的 准确 性 一 样 高。 尽管 最 理想 
的 情况 是 , 这 种 基于 生存 分 析 技 术 的 预测 能 够 融和 人 到 根据 预算 水 平 管理 实际 水 平 的 过 程 。 
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数目 -0 一 @- 文 际 值 总- 多 - 预测 值 


1357 911131517 1921 23 25 27 29 3 
一 个 月 中 的 某 天 


图 12-13 生存 分 析 也 能 够 应 用 于 预测 客户 停止 


这 些 要 素 的 结合 一 一 对 现存 客户 停止 的 预测 及 对 新 客户 停止 的 预测 一 一 使 得 对 未 来 客户 
层次 的 估计 成 为 可 能 。 作 者 一 直 在 与 那些 向 前 预测 数 年 的 客户 一 起 工作 。 因 为 这 些 针 对 新 客 
户 的 模型 包括 了 获取 渠 道 ， 所 以 预测 模型 可 能 用 于 优化 未 来 的 多 种 获取 渠道 组 合 。 


12.5.4 风险 随时 间 变 化 


在 生存 分 析 中 一 个 更 加 困难 的 问题 是 ， 风 险 本 身 是 否 是 持续 不 变 的 ， 或 者 说 它们 是 否 随 
时 间 而 变化 。 在 科学 研究 中 假定 风险 不 发 生变 化 ， 科 学 研究 中 生存 分 析 的 目的 是 获得 在 不 同 
情形 下 对 “真实 ”风险 的 估计 。 

这 种 假设 在 市 场 营销 工作 中 可 能 真 也 可 能 不 真 。 当 然 ， 通 过 这 些 假 设 ， 生 存 分 析 利 用 窜 
户 数据 已 证 明了 它 的 价值 。 然 而 ， 考 虑 风险 随时 间 而 变化 的 可 能 性 也 是 很 有 意义 的 。 特 别 
是 ， 如 果 风 险 确实 发 生 了 变化 ， 那 么 它 就 会 给 出 某 些 启示 ， 告 诉 我 们 营销 地 点 和 客户 随时 间 
的 变化 情况 到 底 是 在 变 好 还 是 变 坏 。 

要 回答 这 个 问题 ， 一 个 方法 是 使 风险 基于 停止 的 客户 而 不 是 开始 的 客户 ， 特 别 是， 比方 
说 ， 那 些 在 过 去 的 几 年 内 每 年 停止 的 客户 。 换 句 话 说， 把 去 年 停止 的 客户 相关 联 的 风险 与 前 
年 停止 的 客户 相关 联 的 风险 相 比较 ， 是 否 有 显著 的 不 同 ? 在 本 章 的 前 面部 分 已 经 提醒 大 家 ， 
对 于 一 个 按照 停止 数据 选 定 的 客户 集合 计算 风险 不 会 得 到 准确 的 风险 。 应 该 如 何 克 服 这 个 问 
题 呢 ? 

有 一 种 计算 这 些 风 险 的 方法 ， 虽 然 这 还 没有 在 标准 的 统计 工具 中 出 现 过 。 这 种 方法 对 客 
户 使 用 时 间 窗 来 估计 风险 概率 。 让 我 们 回忆 一 下 经 验 风 险 概率 的 定义 ;在 某 个 特定 时 间 实 际 
停止 的 客户 数 除 以 在 那个 时 间 可 能 停止 的 客户 数 。 到 目前 为 止 ， 所 有 的 客户 都 被 包含 在 计算 
之 中 。 这 种 方法 的 目的 是 只 把 客户 限制 在 那些 在 研究 期 间 可 能 会 停止 的 客户 。 

作为 一 个 实例 ， 我 们 基于 2003 年 停止 的 客户 来 估算 风险 。 在 2003 年 停止 的 客户 要 委 是 
在 2003 年 第 一 天 是 活跃 的 客户 ， 要 么 是 那 年 的 新 客户 。 无 论 哪 种 情况 ， 这 些 客户 都 对 人 口 
总 数 做 出 了 贡献 ， 无 论 他 们 的 保有 期 是 否 从 2003 年 第 一 天 算 起 〈 对 于 新 客户 是 0)。 
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让 我 们 考虑 1 天 的 风险 概率 计算 。 那 些 保 有 期 为 1 天、 可 能 停止 并 且 在 2003 年 确实 停止 
的 客户 数 到 底 是 多 少 ? 只 有 那些 在 2002 年 12 月 31 日 到 2003 年 12 月 30 日 之 间 开 始 的 客户 有 
可 能 在 2003 年 有 一 个 工 天 的 停止 。 因 此 ， 一 天 的 风险 计算 使 用 在 2003 年 保有 期 为 1 天 的 所 有 
停止 作为 停止 总 数 ， 风 险 人 口 由 2002 年 12 月 31 日 到 2003 年 12 月 30 日 之 间 开 始 的 客户 组 成 。 
作为 另外 一 个 例子 ，365 天 的 风险 可 能 会 以 在 2002 年 开始 的 客户 人 口 总 数 为 基础 。 

得 到 的 结果 就 是 以 革 个 特定 时 段 的 停止 为 基础 的 风险 估计 。 从 对 比 的 角度 来 看 ， 生 存 被 
证 明 比 风险 本 身 更 有 用 。 图 12-14 给 出 了 一 个 例子 ， 表 明生 存在 那 几 年 的 过 程 中 的 确 在 下 
降 。 生 存 方 面 的 改变 很 小 ， 但 计算 是 以 数 十 万 计 的 客户 为 基础 ， 确 实 表 明 客 户 质量 的 下 降 。 


120 150 180 210 240 
开始 后 几 天 


图 12-14 时间 窗 技术 使 得 观察 生存 随时 间 的 变化 成 为 可 能 


12.6 ”小结 


风险 和 生存 分 析 是 为 了 解 客户 而 设计 的 ， 本 章 引 入 了 风险 作为 客户 在 某 个 给 定时 间 点 离 
开 的 条 件 概率 。 这 种 对 于 生存 分 析 的 处 理 按照 统计 学 是 不 正统 的 ， 在 统计 学 中 更 喜欢 基于 连 
续 的 比率 而 不 是 离散 的 时 间 概 率 ， 但 这 种 处 理 方法 对 于 分 析 客 户 更 直观 。 

风险 对 于 客户 生存 周期 起 到 了 像 X 光 片 的 作用 〈 即 可 以 提早 发 现 潜在 的 风险 )。 这 个 与 
生存 相关 的 概念 〈 即 到 某 个 时 间 点 仍然 存活 下 来 的 客户 比例 )， 使 得 比较 不 同 客户 组 以 及 把 
这 些 结果 转换 成 经 济 效益 成 为 可 能 。 当 有 是 够 多 客户 的 时 候 (通常 是 有 的 ) ， 通 过 为 每 一 个 
客户 组 建立 一 条 曲线 来 把 客户 分 层 ， 提 供 了 一 种 好 的 比较 方法 。 利 用 其 他 度量 ， 比 如 ， 某 个 
特定 时 间 点 的 生存 、 客 户 半 训 期、 平均 保持 时 间 ， 也 可 能 更 好 地 了 解 客户 。 

生存 分 析 中 关键 的 概念 之 一 是 审查 过 程 ， 这 就 是 说 某 些 客户 在 分 析 过 程 中 会 离 去 。 这 一 
审查 观点 可 以 被 拓展 用 于 对 竞争 风险 的 理解 ， 如 自发 流失 和 强制 流失 的 问题 。 审 查 也 可 能 用 
于 舍弃 某 些 结果 (比如 一 次 联合 抵制 活动 )， 不 至 于 对 总 体 结果 造成 有 害 的 偏离 。 

风险 的 最 有 力 方 面 之 一 是 ， 在 过 程 的 开始 ， 确 定 哪 些 因素 对 于 风险 的 增加 或 减少 是 可 信 
的 。 除 了 客户 分 层 技术 之 外 ， 还 有 另外 的 技术 一 一 Cox 比例 风险 回归 ，20 世纪 70 年 代 以 来 
它 已 经 证 明了 自身 的 价值 ， 且 不 断 扩展 并 得 到 改进 。 

除了 测量 客户 离开 的 概率 以 外 ， 生 存 分 析 还 有 更 多 的 应 用 。 它 已 经 被 用 于 预测 客户 层次 
以 及 客户 生存 期 中 其 他 类 型 的 事件 。 它 是 一 个 强 有 力 的 工具 ， 似 乎 是 专门 为 了 解 客户 及 他 们 
的 生存 周期 而 设计 的 。 
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第 13 章 遗传 算法 


就 像 基 于 存储 的 推理 和 神经 网 络 一 样 ， 遗 传 算法 (genetic algorithm，GA) 也 是 以 模仿 
生物 过 程 为 基础 。 在 数 百 万 年 之 间 ， 进 化 和 自然 选择 已 经 造就 了 对 环境 高 度 适 应 的 特殊 物 
种 。 通 过 将 一 代 最 适应 的 生物 个 体 中 的 遗传 物质 传播 给 下 一 代 ， 进 化 论 能 够 优化 下 一 代 个 体 
的 适应 度 〈fitness) 。 

遗传 算法 将 相同 的 观念 应 用 到 一 些 其 结果 能 表示 为 最 优 “个 体 "， 目 标 是 最 大 化 个 体 的 
“适应 度 ” 的 问题 。 许 多 问题 都 可 以 这 样 描述 ， 挑 战 在 于 用 合适 的 方式 编码 这 些 问题 。 举 例 
来 说 ， 遗 传 算法 的 应 用 之 一 是 训练 神经 网 络 。 此 时 个 体 就 是 网 络 内 部 的 一 组 权重 值 ， 个 体 的 
适应 度 是 具有 训练 集 上 的 那些 权重 的 神经 网 络 的 准确 度 。 训 练 以 进化 方式 进行 ， 使 更 适应 的 
个 体 将 权重 传播 到 下 一 代 。 不 太 适 应 的 个 体 及 其 遗传 物 质 不 再 保存 。 尽 管 偶然 性 在 任何 特定 
个 体 的 生存 中 起 着 非常 重要 的 作用 ， 但 在 一 个 较 大 的 群体 中 ， 对 自然 选择 来 说 有 足够 多 的 不 
同类 型 的 个 体例 子 ， 传 播 能 够 产生 最 适应 个 体 的 遗传 物质 。 

遗传 算法 也 称 为 进化 算法 ， 已 经 被 应 用 到 各 种 不 同行 业 的 优化 问题 ， 包 括 复杂 的 计划 安 
排 问 题 、 大 型 工厂 的 资源 优化 问题 和 包括 复杂 数据 类 型 的 分 类 问题 。 也 与 其 他 的 数据 挖掘 算 
法 结合 使 用 ， 包 括 用 来 确定 神经 网 络 的 最 佳 拓扑 ， 确 定 基 于 存储 的 推理 的 得 分 函数 ， 以 及 前 
面 提 到 的 优化 神经 网 络 的 权重 。 然 而 ， 在 一 般 的 数据 挖掘 软件 包 中 普遍 没有 遗传 算法 。 


优 化 

优化 问题 (optimization problem) 有 三 个 特征 : 

e 一 组 参数 〈 遗 传 算法 称 为 基因 组 或 染色 体 )。 

9 一 个 函数 〈 适 应 度 函 数 )， 把 多 个 参数 组 合成 一 个 单一 的 数值 。 

4 在 参数 上 的 一 系列 眼 制 (对 于 遗传 算法 ， 这 些 已 经 并 入 适应 度 函 数 )。 

目标 是 寻找 使 适应 度 函 数 最 大 或 最 小 的 参数 ， 并 服从 限制 。 即 使 对 最 先进 的 计算 机 来 
说 ， 搜 所 所 有 符合 限制 的 参数 组 合 也 是 很 麻烦 的 ; 即使 对 于 少数 的 儿 个 参数 ， 组 合 后 的 数目 
仍然 还 是 太 大 而 无 法 搜寻 。 

遗传 算法 是 解决 这 类 问题 的 一 种 方法 ， 但 不 是 惟一 的 方法 。 当 适应 度 函 数 满足 一 些 特殊 
的 数学 条 件 时 ， 微 分 学 能 用 来 寻找 最 优 解 。 尽 管 在 实践 中 极 少 函 数 是 可 微分 的 ， 但 是 微 积分 
学 也 包含 在 其 他 情况 下 估计 解 的 思想 。 用 于 训练 神经 网 络 的 共 度 梯度 方法 (conjugate-gradi- 
ent method) 就 是 基于 这 样 的 思想 。 就 像 “Excel 的 计算 器 功能 ”。 

另 一 种 方法 发 生 在 线性 规划 问题 中 。 在 这 些 问题 中 ， 适 应 度 函 数 是 线性 的 ， 而 且 所 有 的 
限制 也 是 线性 的 。 这 些 限制 时 常 出 现在 资源 分 配 问题 中 ， 诸 如 : 

公司 在 一 组 工厂 生产 小 装置 ， 每 个 工厂 有 生产 量 、 产 品 成 本 和 运送 小 装置 到 客户 的 花 
费 。 每 个 工厂 应 该 生产 多 少 小 装置 才能 以 最 低 成 本 满足 客户 的 需求 ? 

解决 这 类 问题 的 标准 方法 称 为 单 形 法 (simplex method)， 而 且 它 在 计算 方面 是 可 行 的 。 
这 类 问题 已 经 用 数 以 千 计 的 变量 解决 了 。 线 性 规划 类 型 问题 的 更 多 信息 见 网 站 www-u- 
nix.mecs.anl.gov Motc /Guide Maq Minear-programming-faq.html。 


另 一 种 方法 称 为 模拟 退火 〈simulated annealing)， 即 模拟 物理 过 程 ; 液体 冷却 并 形成 晶 
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体 的 模式 。 晶 体 最 小 化 特定 类 型 的 能 量 ， 而 且 贯 穿 整个 结晶 过 程 。 研 究 物理 性 质 的 科学 家 最 
经 常 使 用 模拟 退火 方法 。 

遗传 算法 的 第 一 项 工作 始 于 20 世纪 50 年 代 后 期 ， 当 时 生物 学 家 和 计算 机 科学 家 合作 ， 
为 早期 的 计算 机 上 的 进化 机 制 建立 模型 。 稍 后 ， 在 20 世纪 60 年 代 早 期 ， 密 软 根 大 学 的 John 
Holland 教授 和 他 的 同事 们 把 计算 遗传 学 方面 的 工作 ， 包 括 染 色 体 、 基 因 、 等 位 基因 和 适应 
度 函 数 等 ， 应 用 到 优化 问题 。1967 年 ，Holland 的 一 位 学 生 J.D.Bagley 在 其 毕业 论文 中 首次 
提出 了 用 踪 传 算法 来 描述 优化 技术 。 当 时 ， 由 于 遗传 算法 在 进化 解 的 过 程 中 依赖 于 随机 的 选 
择 ， 许 多 研究 员 对 遗传 算法 感到 不 舒服 ; 这 些 选 择 似乎 是 随意 的 和 不 可 预知 的 。 在 20 世纪 
70 年 代 ，Holland 教授 发 展 了 该 项 技术 的 理论 基础 。 他 的 模式 (schema) 理论 提供 了 为 什么 
使 用 遗传 算法 的 深 和 人 了解， 而且 让 人 感 兴趣 的 是 ， 他 提出 了 遗传 学 本 身 为 什么 能 够 创造 像 我 
们 自己 一 样 的 、 成 功 的 并 且 能 适应 的 创造 物 。 在 数据 控 据 和 数据 分 析 界 ， 遗 传 算法 不 像 其 他 
技术 一 样 使 用 广泛 。 数 据 挖掘 关注 像 分 类 和 预测 之 类 的 任务 ， 而 不 是 优化 。 尽 管 许多 数据 控 
掘 问 题 能 够 设计 为 优化 问题 ， 但 是 这 不 是 平常 的 描述 。 举 例 来 说 ， 一 个 典型 的 数据 挖掘 问题 
可 能 是 以 第 一 个 星期 的 销售 为 基础 ， 预 测 一 个 目录 中 给 定 项 需要 的 存货 层次 、 目 录 中 项 的 特 
征 和 容器 。 把 它 改 述 为 一 个 优化 问题 ， 就 变 成 有 几 分 像 “ 对 预言 性 目的 来 说 ， 什 么 函数 最 适 
应 存货 曲线 ”。 应 用 统计 学 回归 技术 〈statistical regression technigue) 是 寻找 该 函数 的 一 种 方 
法 ， 将 数据 回馈 到 一 个 神经 网 络 是 另 一 种 估计 的 方法 ， 使 用 遗传 算法 也 提供 了 一 种 方法 。 前 
面 “ 最 优化 ”部 分 讨论 了 为 这 一 目的 而 特别 设计 的 其 他 一 些 方法 。 

本 章 包含 计算 机 上 的 遗传 学 的 背景 ， 并 且 介 绍 了 由 John Holland 设计 的 模式 机 制 ， 解 释 
为 什么 遗传 算法 起 作用 。 本 章 主 要 讨论 两 个 案例 研究 ， 一 个 是 在 资源 优化 (resource opti- 
mization) 领域 ， 另 一 个 是 在 预测 邮件 消息 方面 。 尽 管 目前 只 有 少数 商业 数据 挖掘 产品 包含 
遗传 算法 ， 但 是 更 多 的 特殊 软件 包 确 实 支持 该 算法 。 它 们 是 一 个 重要 的 、 活 路 的 研究 领域 ， 
而 且 未 来 可 能 会 得 到 更 广泛 的 应 用 。 


13.1 遗传 算法 如 何 工 作 


遗传 算法 的 能 力 来 自 其 生物 基础 ， 进 化 论 已 经 证 明 ， 适 者 生存 〈 见 后 面 “ 遗 传 学 的 简单 
概观 ”部 分 )。 成 功 地 绘制 人 类 基因 组 的 模板 ， 即 被 人 类 个 体 共 享 的 所 有 常见 DNA， 仅 仅 是 
开始 。 人 类 的 基因 组 已 经 在 许多 领域 ， 像 医学 研究 、 生 物化 学 、 遗 传 学 ， 甚 至 人 类 学 中 提供 
先进 的 知识 。 人 类 基因 组 虽然 很 重要 ， 已 经 超出 需要 理解 遗传 算法 的 知识 范围 ， 但 是 描述 计 
算 机 技术 需要 的 语言 过 去 一 直 大 量 地 借鉴 生物 模型 ， 如 下 所 述 。 


13.1.1 计算 机 上 的 遗传 学 


一 个 简单 的 例子 有 助 于 说 明 遗 传 算法 如 何 工作 : 设法 找 出 有 单一 整数 参数 训 的 简单 函 
数 的 最 大 值 。 本 例 中 的 函数 是 由 312 - z2 定义 的 抛物 线 〈 看 起 来 像 颠倒 的 “U”)， 其 中 j 
的 变化 范围 在 0 到 31 之 间 〈 见 图 13-1)。 参 数 被 表示 成 一 个 含有 5 个 二 进 制 位 的 字符 串 ， 
代表 从 0 到 31 的 数字 ;这 个 位 串 就 是 遗传 物质 ， 称 为 基因 组 。 适 应 度 函 数 在 15 和 16 的 峰 
值 ， 分 别 表 示 为 01111 和 10000。 这 个 例子 说 明 ， 即 使 有 多 重 不 同 的 峰值 ， 遗 传 算法 仍然 是 
适用 的 。 
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适应 度数 值 


图 13-1 寻找 这 个 简单 函数 的 最 大 值 有 助 于 阐明 遗传 算法 


遗传 算法 通过 进化 基因 组 ， 来 得 到 越 来 越 适 应 的 后 代 ; 也 即 ， 提 供 更 好 的 解决 问题 的 办 法 。 
在 自然 界 中 ， 适 应 度 只 是 生物 体 的 生存 和 繁殖 能 力 。 在 一 台 计 算 机 上 ， 进 化 模拟 下 列 几 步 ; 

1) 识别 基因 组 和 适应 度 函 数 ; 

2) 产生 一 个 初始 基因 组 的 代 ; 

3) 通过 应 用 遗传 算法 修改 初始 代 ; 

4) 一 直 重 复 第 3 步 ， 直 到 群体 的 适应 度 不 再 改变 。 

第 -- 步 是 表达 问题 。 在 这 个 简单 的 例子 中 ， 基 因 组 由 参数 问 对 应 的 一 个 单独 的 、5 个 二 
进 制 位 的 基因 组 成 ， 适 应 度 函 数 是 抛物 线 。 在 代 与 代 之 间 ， 适 应 度 函 数 将 被 最 大 化 。 

对 于 这 个 例子 ， 如 表 13-1 所 示 ， 初 始 代 包 含 四 个 随机 产生 的 基因 组 。 通 常 ， 一 个 真正 
的 待 处理 群 体会 有 数 百 或 数 以 千 计 的 基因 组 ， 但 是 对 这 里 的 说 明 目 的 是 不 实用 的 。 注 意 ， 在 
这 个 群体 中 ， 平 均 适 应 度 是 122.5， 已 经 相当 好 了 ， 因 为 实际 的 最 大 值 是 240， 但 是 进化 能 
改进 它 。 

表 13-1 四 个 随机 生成 的 基因 组 


基 因 组 妃 适 应 度 
10110 22 198 
00011 3 84 
00010 2 58 
11001 25 150 


基本 算法 使 用 三 个 操作 修改 初始 群体 : 选择 (selection) 、 交 叉 (crossover) 、 变 异 〈mnu- 

tation) ， 如 图 13-2 所 示 。 这 些 操 作 在 下 面 解释 。 
遗传 学 的 简单 概观 

生命 依赖 于 蛋白 质 ， 蛋 白质 由 20 个 称 为 氨基 酸 的 基本 单元 的 序列 构成 。 细 胞 核 的 染色 
体 是 携带 细胞 需要 的 蛋白 质 的 蓝图 DNA 序列 。 每 个 人 的 细胞 的 23 对 染色 体 一 起 构成 这 个 
人 的 基因 组 。 大 体 上 ， 同 一 物种 不 同 个 体 的 基因 组 彼此 很 相似 ， 然 而 ， 确 实 有 个 体 的 差异 。 

基因 组 中 的 DNA 使 用 核 芳 酸 序列 编码 这 些 氨基 酸 序列 蓝图 。 这 些 核 昔 酸 构成 遗传 基因 
字母 表 的 四 个 字母 : 


证 2 人 sa: 全 
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忆 E 和 多 沁 
FEEEEEREE 棺 到 


选择 ”保持 群体 的 规模 为 常数 ， 但 是 增加 下 一 代 的 适应 度 。 
有 较 高 的 适应 度 ( 比较 黑 的 阴影 ) 的 基因 组 分 裂 繁殖 ， 而 有 
浅 阴 影 的 基因 组 销 失 。 


交叉 ”是 结合 两 个 基因 组 
的 方法 。 交 叉 位 置 决定 了 
在 何 处 基因 组 “破裂 ”并 
再 次 结合 。 


变异 “在 基因 组 的 一 个 随机 位 置 产 
生 偶 然 的 随机 变化 ， 从 而 允许 那些 
在 初始 群体 中 可 能 没有 出 现 的 特征 
出 现 。 


图 13-2 ”遗传 算法 的 基本 操作 是 选择 、 交 叉 和 变异 


e A， 腺 叭 

e C， 胞 喀 喧 

4 G， 乌 味 叭 

e 工 ， 胸 腺 喀 喧 

核 苷 酸 用 三 元 组 表示 20 个 氨基 酸 。 举 例 来 说 ， 被 称 为 甲 硫 胺 酸 的 氢 基 酸 对 应 三 元 组 
ATG。 另 外 的 一 个 氨基 酸 


赖 胺 酸 ， 有 两 种 拼 法 : AAA 和 AAG。 因 此 ， 如 果 一 个 DNA 
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序列 含有 下 列 的 字母 : 

ATGAAGATGCGA 
那么 它 解码 为 一 种 含有 四 类 氨基 酸 的 蛋白 质 : 甲 硫 胺 酸 ATG、 赖 腕 酸 AAG、 甲 硫 胺 酸 ATG 
以 及 精 胺 酸 OGA ( 见 图 )。 这 种 措 述 故意 掩盖 了 将 蓝图 变 成 蛋白 质 的 实际 的 生物 化 学 机 制 的 
细节 ， 但 是 提供 了 从 DNA 遗传 信息 到 蛋白 质 体 的 一 个 高 层 轮 廊 的 映射 。 

一 个 生物 学 编码 的 例子 是 从 DNA 的 核 苷 酸 到 蛋白 质 中 的 氨基 酸 的 映射 。 

在 这 个 简化 的 模型 中 ， 进 化 过 程 如 下 : 由 DNA 表示 法 产生 的 蛋白 质 表 示 为 一 些 生 物 特 
征 ， 像 蓝 眼睛 、 五 个 手指 、 脑 的 结构 、 长 的 象 鼻 子 等 等 。 基 因 可 能 表现 为 一 种 损坏 的 方式 ， 
导致 产生 的 生物 体 死 亡 。 健 康 的 生物 体 生 存 下 去 并 繁衍 子孙 ， 而 且 把 他 们 的 DNA 传 给 后 
代 。 在 高 级 动物 中 ，DNA 实际 上 在 性 别 复 制 期 间 使 用 称 为 交叉 的 技术 ， 与 来 自 另 一 位 生存 
者 的 DNA 结合 。 有 时 ， 在 从 一 代 到 下 一 代 的 基因 传递 过 程 中 可 能 出 现 一 些 错误 ， 这 就 是 变 
异 。 在 许多 代 之 间 ， 所 有 这 些 过 程 的 结合 使 得 生物 体高 度 适 应 环境 。 这 就 是 进化 的 过 程 。 

带 核 苦 酸 的 DNA 蛋白 质 的 氨基 酸 
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1. 选择 

选择 类 似 自 然 选 择 过 程 ， 在 群体 中 ， 只 有 最 适应 的 个 体 成 功 地 将 遗传 物质 传递 给 下 一 
代 。 尽 管 不 像 自 然 界 ， 群 体 的 规模 从 一 代 到 下 一 代 仍 然 保持 不 变 ， 因 此 没有 群体 灭绝 的 机 会 
(这 显然 不 是 最 优 解 !)。 基 因 组 保持 到 下 一 代 的 机 会 与 它 的 适应 度 成 比例 一 一 与 其 他 的 基因 
组 相 比 ， 适 应 度 越 高， 保留 到 下 一 代 的 复制 越 多 。 表 13-2 展示 了 四 个 基因 组 与 群体 适应 度 
的 比率 。 这 个 比率 决定 了 在 下 一 代 中 预期 的 基因 组 复制 数 。 


表 13-2 ”使 用 适应 度 作 为 选择 


基 因 组 群体 适应 度 期 望 总 适应 度 百 分 比 复 制 数 
10110 198 40.4% 62 
00011 84 17.1% 0.69 
00010 58 11.8% 0.47 
11001 150 30.6% 1.22 


预期 的 复制 数 是 一 个 小 部 分 ， 但 是 群体 的 基因 组 数 从 来 都 不 是 微 少 的 。 生 存 是 以 随机 的 
方式 选择 与 适应 度 成 比例 的 基因 组 为 基础 。 我 们 使 用 介 于 0 到 工 之 间 的 一 个 随机 数 ， 决 定 基 
因 组 的 一 份 复制 是 否 生 存 。 使 用 表 13-2 的 例子 ， 如 果 第 一 个 随机 数 小 于 0.404， 那 么 选择 基 
因 组 10110; 如 果 是 在 0.404 和 0.576 (40.4% +17.1%) 之 间 ， 选 择 基因 组 00011， 依 此 
类 推 。 在 基因 组 达到 一 个 合适 的 数目 之 前 ， 会 产生 更 多 的 随机 数 。 使 用 随机 数 产生 器 将 该 部 
分 概率 转换 成 近似 的 整数 ， 而 且 也 允许 一 些 低 适应 度 的 基因 组 生存 。 

在 初始 的 四 个 基因 组 上 应 用 选择 ， 产 生 表 13-3 所 示 的 生存 者 。 注 意 ， 大 体 上 ， 这 个 过 
程 产生 更 适应 的 基因 组 的 多 份 复制 ， 而 产生 不 太 适 应 者 的 少量 复制 。 不 太 适 应 者 00011， 没 
有 平安 渡 过 这 一 回合 的 选择 ， 但 是 最 适应 者 10110 有 两 份 复制 ， 并 且 和 群体 的 平均 适应 度 已 经 
从 122.5 增加 到 151.0。 


表 13-3 选择 后 的 群体 


基 因 组 P 适 应 度 
10110 22 198 
11001 25 150 
00010 2 58 
10110 22 198 
2. 交叉 


应 用 于 生存 基因 组 的 下 一 个 操作 是 交叉 。 在 自然 界 中 发 生 的 交叉 ， 通 过 把 现 有 的 两 个 基 
因 组 的 每 一 块 粘贴 到 一 起 产生 两 个 新 的 基因 组 。 如 图 13-2 所 示 ， 交 叉 在 两 个 基因 组 中 一 个 
任意 的 位 置 开 始 ， 第 一 个 基因 组 的 第 一 部 分 与 第 二 个 基因 组 的 第 一 部 分 交叉 互 换 。 举 例 来 
说 ， 比 如 两 个 基因 组 10110 和 00010 使 用 第 二 和 第 三 位 之 间 的 位 置 进行 交叉 的 情况 如 下 : 

101110 

001010 

交叉 结果 是 (来 自 第 二 个 基因 组 的 基因 被 划 线 ) : 

101010 

001110 
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产生 的 基因 组 称 为 孩子 ， 每 个 孩子 都 有 从 双亲 继承 的 一 部 分 染色 体 。 通 过 选择 基因 组 
对 ， 并 且 掷 一 枚 硬币 决定 它们 是 分 离 还 是 交叉 ， 然 后 将 交叉 应 用 到 群体 。 这 个 概率 是 交叉 概 
率 , 用 严 表示 。 如 果 它 们 确实 交叉 ， 那 么 选择 一 个 随机 的 位 置 ， 而 且 初 始 基因 组 的 孩子 在 
下 代 中 代替 它们 。 交 叉 概 率 的 值 是 0.5〈 与 投掷 硬币 相对 应 ) 时 通常 产生 好 的 结果 。 在 该 倒 
中 ， 选 择 两 个 基因 组 10110 和 00010 进行 交叉 ， 而 且 交 叉 位 置 是 在 第 二 和 第 三 基因 ( 表 13-4) 
之 间 。 注 意 在 选择 和 交叉 之 后 ， 和 群体 的 适应 度 已 经 从 122.5 升 到 183.0， 这 是 经 过 一 代 之 后 
一 个 显著 的 改进 。 


表 13-4 选择 和 交叉 后 的 群体 
基 因 组 P 适 应 度 
10010 18 234 
11001 2 150 
00110 6 150 
10110 22 198 


3. 变异 
最 后 的 操作 是 变异 。 变 异 很 少 在 自然 界 发 生 ， 变 异 是 从 双亲 传 给 孩子 的 基因 物质 被 错误 
编码 的 结果 。 因 而 发 生 在 基因 方面 的 改变 可 能 代表 现 有 群体 的 适应 度 的 显著 改变 ， 虽 然 结 果 
时 常 是 有 害 的 。 选 择 和 交叉 在 寻找 可 能 的 基因 组 方面 效果 很 好 ， 但 是 依赖 于 初始 条 件 和 随机 
性 ， 两 者 结合 可 以 防止 在 下 一 代 不 考虑 特定 的 有 价值 的 结合 。 变 异 提 供 附 加 输入 。 变 愉 率 在 
自然 界 中 相当 小 ， 而 且 对 遗传 算法 来 说 通常 保持 相当 低 一 一 每 代 的 变异 大 约 不 超过 一 个 合理 
的 界线 。 对 于 刚才 的 例子 ， 当 变异 发 生 的 时 候 ， 位 元 从 0 变 到 1， 或 者 从 1 变 到 0。 
假设 在 这 一 代 中 有 一 个 变异 ， 发 生 在 第 二 基因 组 的 位 置 3。 表 13-5 展示 了 这 样 的 一 次 变 
异 之 后 的 基因 组 群体 。 注 意 ， 像 许多 变异 一 样 ， 这 一 变异 是 破坏 性 的 ; 受 变异 影响 的 基因 组 
的 适应 度 从 150 减少 到 58 ， 群 体 的 平均 适应 度 从 183.0 减少 到 160.0， 而 且 产 生 的 基因 组 不 
可 能 存活 到 下 一 代 。 这 是 正常 的 。 遗 传 算法 最 初 的 操作 方法 是 选择 和 交叉 。 变 异 具有 特别 的 
次 级 效应 ， 有 助 于 避免 未 成 熟 的 、 局 部 最 适应 状态 的 收敛。 当初 始 群 体 提供 好 的 可 能 的 组 合 
空间 的 覆盖 时 ， 通 过 选择 和 交叉 ， 下 一 代 向 最 优 解 快速 移动 。 变 异 引 和 人 的 变化 可 能 是 毁灭 性 
的 ， 其 持续 效力 不 超过 一 代 或 者 两 代 。 然 而 ， 尽 管 在 本 例 中 是 有 害 变 异 ， 第 二 代 在 初始 群体 
基础 上 还 是 有 显著 的 改善 。 
表 13-5 选择、 交叉 和 变异 后 的 群体 
基 因 组 P 适 应 度 
10000 18 234 
11101 29 S8 
00110 6 1S0 
10110 22 198 


遗传 算法 的 基本 原理 是 ， 当 基因 从 一 代 传递 到 下 一 代 时 ， 通 过 选择 、 交 叉 和 变异 ， 持 续 
不 断 地 改进 群体 的 适应 度 。 在 特定 多 代 之 后 一 一 典型 的 是 数 十 或 百代 一 一 群体 进化 接近 最 优 
解 。 遗 传 算法 不 总 是 产生 精确 的 最 优 解 ， 但 是 能 够 非常 好 地 接近 最 优 解 。 在 数据 挖掘 中 ， 精 
确 的 方案 未 必 可 行 ， 接 近 最 优 解 仍 然 可 以 产生 可 操作 的 结果 。 
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13.1.2 表示 数据 


前 面 的 例子 痒 明 了 将 遗传 算法 应 用 到 简单 函数 31z - 大 的 优化 的 基本 机 制 。 该 例 尝试 
取 一 个 特殊 函数 的 最 大 值 ， 天 数 本 身 作 为 适应 度 函 数 。 基 因 组 相当 容易 产生 ， 因 为 函数 有 一 
个 参数 ， 是 $ 个 位 元 表示 的 取 值 介 于 0 和 31 之 间 的 整数 。 基 因 组 包含 一 个 单一 的 基因 代表 
该 参数 ， 并 且 由 5 个 二 进 制 位 的 序列 构成 。 选 择 二 进 制 序列 表示 法 不 是 偶然 的 。 正 如 本 节 稍 
后 关于 模式 的 介绍 所 述 ， 遗 传 算法 在 数据 的 二 进 制 表示 (一 种 非常 方便 的 环境 ) 上 效果 最 
佳 ， 因 为 计算 机 本 身 在 二 进 制 数据 上 工作 效率 最 高 。 

遗传 算法 不 同 于 其 他 的 数据 挖掘 和 优化 技术 ， 它 们 操纵 基因 组 的 位 模式 ， 而 且 一 点 也 不 
关心 有 关 用 二 进 制 位 表示 的 数值 ， 只 有 适应 度 函 数 知道 模式 的 真正 意义 。 适 应 度 函 数 需要 一 
种 能 力 ， 把 任何 基因 组 转变 成 一 个 适应 度数 值 。 因 为 计算 机 习惯 于 以 位 元 方式 处 理 数据 ， 所 
以 这 一 需求 似乎 不 是 特别 费力 。 然 而 ， 一 些 位 模式 可 能 违犯 施加 于 这 个 问题 上 的 约束 。 当 基 
因 组 违犯 这 些 约 东 时 ， 适 应 度 就 被 设 为 一 个 最 小 值 。 也 即 ， 适 应 度 函 数 的 约束 测试 把 约束 编 
和 人 解决 方案 。 

举例 来 说 ， 前 面 的 例子 有 一 个 约束 ， 即 数值 介 于 0 和 31 之 闻 。 通 过 使 用 5 个 位 元 表示 
基因 组 ， 就 隐 含 着 本 约束 为 真 。 如 果 有 8 个 位 元 呢 ? 在 这 种 情况 下 ， 适 应 度 函 数 看 起 来 像 ， 

*。318 - 轨 ， 当 0 委 2 委 31 

。 否 则 为 0 

这 里 一 般 的 规则 是 ， 对 任何 没有 意义 或 者 违犯 问题 约束 的 位 模式 ， 设 定 一 个 最 小 适应 度 
数值 。 这 样 的 模式 可 能 不 在 初始 群体 中 ， 但 是 由 于 交叉 和 变异 也 可 能 出 现 。 

提示 : 适应 度 函数 是 定义 在 以 位 元 序列 表示 的 基因 组 上 ， 能 够 理解 1 和 0 组 成 的 任 

何 位 元 序列 。 当 一 个 特定 的 位 元 模式 没有 一 点 意义 的 时 候 ， 适 应 度 函 数 应 该 返回 一 

个 非常 低 的 数值 ， 因 此 模式 不 会 传 给 下 一 代 。 


13.2 ”案例 研究 : 使 用 遗传 算法 进行 资源 优化 


遗传 算法 已 被 证 明 相当 成 功 的 一 个 领域 是 ， 带 有 一 系列 约束 的 资源 调度 (scheduling re- 
source) 问题 。 这 类 问题 包括 有 限 资 源 的 争 用 ， 遵 守 描述 关系 的 一 组 复杂 的 规则 。 这 类 问题 
的 关键 ， 是 定义 一 个 适应 度 函 数 ， 将 所 有 的 约束 纳入 一 个 单一 适应 度数 值 。 这 些 问 题 已 经 超 
出 本 书 讨论 的 传统 数据 挖掘 问题 的 范围 ; 然而 ， 它 们 是 重要 的 ， 而 且 显 示 了 遗传 算法 的 
功能 。 

这 个 问题 的 一 个 实例 是 在 一 个 门诊 部 ， 分 配 40 个 内 科 医 生 到 不 同 的 科室 ， 正 如 Ed 
Ewen 博士 在 德 拉 瓦 州 的 医学 中 心 所 遇 到 的 情况 一 样 。 门 诊 部 每 周 工 作 7 天， 而且 医 生 在 全 
年 中 被 指派 为 每 周 的 某 一 天 工作 ， 不 考虑 其 他 科室 。 最 佳 分 配 要 平衡 一 些 不 同 的 目标 ; 

“门诊 部 必须 总 有 医生 值班 ; 

“ 门诊 部 应 该 平衡 考虑 第 一 年 、 第 二 年 和 第 三 年 的 医生 ; 

“ 第 三 年 的 医生 每 天 诊 视 8 位 病人 ， 第 二 年 的 医生 看 6 位 病人 ， 第 一 年 的 医生 只 看 4 位 

病人 。 

迄今 为 止 ， 这 个 问题 并 不 那么 复杂 。 然 而 ， 每 个 医生 在 医院 的 某 个 部 门 ， 像 重病 特别 护 
理 病 房 、 肿 瘤 部 门 或 社区 医院 中 ，4 个 星期 轮 一 次 班 。 这 些 轮班 有 一 些 其 他 的 约束 ， 
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。 资 深 的 医生 被 指派 去 重病 特别 护理 病房 的 时 候 ， 不 必 去 门诊 部 ， 但 是 所 有 其 他 的 医生 
要 去 ; 
。 资 历 较 浅 的 医生 被 指派 去 心脏 病 护 理 轮班 的 时 候 ， 不 必 去 门诊 部 ， 但 是 所 有 其 他 的 医 
生 要 去 ; 


“在 同一 天 被 指派 给 门诊 部 的 、 来 自重 病 特 别 护理 病房 的 医生 不 超过 两 位 ; 

。 在 同一 天 被 指 派 给 门诊 部 的 、 来 自 其 他 轮班 的 医生 不 超过 三 位 。 

可 能 出 现 的 一 个 问题 是 ， 在 一 个 轮班 期 间 ， 五 位 医生 在 某 一 天 被 指派 给 门诊 部 。 在 下 一 
个 轮班 期 间 ， 一 个 资深 医生 在 内 科 重 病 特 别 护理 轮班 ， 两 个 资历 较 浅 者 在 心脏 病 护 理 轮班 。 
现在 门诊 部 只 剩 下 两 位 医生 ， 这 对 门诊 部 业务 是 不 够 的 。 

遗传 算法 方法 认识 到 ， 对 这 个 问题 或 许 没 有 一 个 完美 的 解决 方案 ， 但 是 医生 在 一 周 的 某 
些 天 的 值班 安排 或 许 有 一 个 较 好 的 方案 。Ewen 博士 认识 到 ， 可 以 使 用 一 个 适应 度 函 数 捕捉 
预定 计划 “状态 的 优良 ”。 实 际 上 ，Ewen 博士 使 用 的 函数 是 一 个 反 适 应 度 函 数 一 一 数值 越 
高 ， 预 定 计划 越 差 。 这 个 函数 对 于 违犯 约束 施加 处 罚 ; 

。 每 天 ， 当 门诊 部 少 于 三 位 医生 时 ， 增 加 一 个 量 一 一 量 越 大 ， 不 足 也 越 大 ; 

。 每 天 ， 当 在 门诊 部 没有 资深 医生 时 ， 增 加 一 个 小 的 量 ; 

。 每 天 ， 在 轮班 时 少 于 三 位 医生 ， 给 适应 度 函数 增加 一 个 大 的 量 ; 

。 依 此 类 推 。 

用 这 些 函 数 建立 一 个 电子 数据 表 ，Ewen 博士 试 着 最 小 化 这 些 函 数 ， 以 便 得 到 最 佳 安 
排 。 初 始 安排 得 分 范围 在 130 到 140 之 间 。 在 几 个 小 时 的 工作 之 后 ， 能 够 将 得 分 减少 到 72， 
已 经 相当 好 了 。 

然而 ， 他 利用 来 自 Ward Systems Group (www.wardsystems.com) 公司 的 、 能 够 知人 
Excel 电子 表格 的 一 个 遗传 算法 软件 包 ， 随 机 地 从 一 个 包含 100 个 个 体 的 群体 进行 安排 ， 没 
有 一 个 是 非常 好 的 。 在 80 代 之 后 ， 软 件 包 将 得 分 降低 到 21， 比 用 手工 方法 能 够 达到 的 效果 
好 得 多 。 

这 个 例子 给 出 了 可 以 在 优化 问题 方面 应 用 遗传 算法 的 一 种 很 好 的 感觉 。 与 大 多 数 的 数据 
挖掘 问题 不 同 的 是 ， 它 们 更 多 是 面向 规则 ， 而 不 是 面向 数据 。 解 决 这 些 问 题 的 关键 是 将 约束 
纳入 一 个 单一 、 待 优化 的 适应 度 函 数 (通过 寻找 一 个 最 大 值 或 最 小 值 )。 产 生 的 适应 度 函 数 
可 能 高 度 非 线性 ， 难 于 使 用 其 他 技术 进行 优化 。 正 如 我 们 将 会 看 到 的 ， 同 样 的 技术 适用 于 具 
有 大 量 数据 的 情形 。 

提示 : 当 在 问题 中 的 规则 比 数据 多 时 ， 遗 传 算法 是 一 个 好 的 工具 〈 虽 然 在 其 他 领域 

也 是 有 用 的 )。 这 种 类 型 的 规划 问题 ， 时 常 包 括 有 限 资 源 的 争 用 ， 趋 向 于 描述 资源 

及 其 使 用 者 的 一 系列 复杂 的 关系 。 


13.3 模式 : 遗传 算法 为 什么 起 作用 


乍 一 看 ， 本 章 前 面 介 绍 的 选择 、 交 叉 和 变异 机 制 没 有 什么 神圣 的 。 举 例 来 说 ， 为 什么 交 
叉 只 选择 一 个 中 间 点 ， 而 不 是 两 个 或 更 多 ? 为 什么 低 的 变异 率 产 生 较 好 的 结果 ? 假如 多 重 交 
又 点 会 更 快 产生 更 好 的 结果 ， 或 者 高 的 变异 率 会 更 有 效 ， 那 么 自然 界 以 这 种 方式 运转 的 事实 
就 不 是 充分 正确 的 。 

对 于 解决 产生 可 操作 结果 的 问题 ， 遗 传 算法 已 经 在 实践 中 很 好 地 发 挥 作 用 ， 这 一 事实 可 
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能 是 继续 使 用 它们 的 充分 理由 。 然 而 ， 知 道 这 项 技术 有 一 个 理论 基础 是 令 人 吉 舞 的 。Hol- 
land 教授 在 20 世纪 70 年 代 早期 发 展 了 模式 处 理 理论 ， 解 释 为 什么 选择 、 交 叉 和 变异 在 实践 
中 工作 良好。 即使 遗传 算法 被 埋藏 正在 使 用 的 工具 中 ， 我 们 特别 建议 对 使 用 遗传 算法 解决 问 
题 感 兴 趣 的 读者 ， 去 理解 模式 ; 因为 这 种 理解 解释 了 这 项 技术 的 能 力 和 局 限 性 。 

模式 〈Schema) ， 来 自 意 思 是 “form” 或 “figure” 的 希腊 词 ， 仅 仅 是 出 现在 基因 组 中 的 
模式 的 一 种 表示 法 。Schemata (复数 形式 ， 从 希腊 词根 得 来 ) 被 表示 为 符号 序列 。 基 因 组 的 
1 和 0 (被 称 为 国定 位 置 ) 通过 增加 一 个 * 进行 扩张 ，* 与 一 个 0 或 一 个 1 相 匹配 。 模 式 和 
基因 组 之 间 的 关系 很 简单 。 当 在 模式 中 的 固定 位 置 与 基因 组 中 的 对 应 位 置 相 匹 配 时 ， 基 因 组 
与 一 个 模式 匹配 。 通 过 例子 可 以 更 清楚 地 说 明 这 一 点 。 下 列 模式 ， 

10 关 关 
与 下 列 所 有 四 个 基因 组 相 匹 配 ， 因 为 它们 都 有 四 个 符号 ， 以 1 开始， 后面 跟 一 个 0: 

1000 

1001 

1011 

1010 

模式 的 阶 〈order of a schema) 是 它 含 有 的 固定 位 置 的 数目 。 举 例 来 说 ，1* 10111 的 阶 
是 6，x*xx1010x1lL 的 阶 是 3$，0#*xxx 关 xxxxxxxxx 的 阶 是 1。 模 式 的 定义 距离 (defining 
length) 是 最 外 层 的 固定 位 置 之 间 的 距 离 。 因 此 1 * 10111 的 定义 距离 是 6 (从 左边 数 ， 
7-1),*x*xT1010x*x1l 的 定义 臣 离 是 6〈 即 10 一 4)，0x*xxxxxxxxxxxxx 的 定义 距离 是 0 
( 即 1-1)。 

现在 ， 让 我 们 考察 以 术语 模式 表示 的 适应 度 函 数 。 如 果 基 因 组 000 从 一 代 传 到 下 一 代 ， 
那么 模式 0** 也 已 经 生存 ，* 0* 、**0、*00、0x*0、00* 和 *#xx 也 一 样 。 那 么 特定 模 
式 的 适应 度 ， 是 在 给 定 的 群体 中 与 模式 匹配 的 所 有 基因 组 的 平均 适应 度 。 举 例 来 说 ， 模 式 
0*x 的 适应 度 是 基因 组 000，001，010 和 011 的 平均 适应 度 ， 因 为 当 这 些 基 因 组 生存 的 时 
候 ， 模 式 生 存 ， 至 少 只 考虑 选择 操作 时 是 这 样 。 考 虑 前 面 使 用 的 适应 度 函 数 为 31p - z2 的 
例子 中 ， 两 个 模式 10 *x** 和 00**xx ， 初 始 群体 的 一 个 基因 组 与 10 **x 匹配 ， 因 此 它 的 适 
应 度 是 176。 与 00 *** 匹配 的 两 个 基因 组 的 适应 度 是 87 和 38。 第 一 个 模式 比 第 二 个 更 适 
应 。 事 实 上 ， 在 下 一 代 中 只 有 一 个 基因 组 与 00 *x*x 匹配 ， 有 两 个 与 10 xxx 匹配 。 更 适应 
的 模式 已 经 生存 和 繁殖 ; 不 太 适 应 的 正在 消失 。 

用 几何 学 表示 模式 有 时 有 助 于 更 好 地 理解 这 一 概念 。 考 虑 长 度 为 3 的 八 个 可 能 的 基因 
组 : 000，001，010，011，100，101，110 和 111， 将 其 分 布 在 单位 立方 体 的 两 个 角 上 ， 如 
图 13-3 所 示 。 模 式 对 应 于 立方 体 的 边 和 面 ， 边 是 阶 为 2 的 模式 ， 面 是 阶 为 1 的 模式 。 遗 传 
算法 处 理 不 同 的 基因 组 ， 也 处 理由 立方 体 的 这 些 特征 显现 的 模式 。 包 括 立 方 体 各 块 的 群体 党 
试 找 出 具有 最 佳 适应 度 的 角 ， 而 模式 提供 关于 可 能 的 解决 方案 的 更 大 区 域 的 信息 。 这 种 几何 
学 的 观点 可 以 推广 到 高 维 ， 选 择 、 交 叉 和 变异 操作 与 高 维 空间 的 一 些 超 立 方 体 切 块 对 应 ， 比 
较 难 以 显现 。 

考虑 模式 1*** 1。 在 初始 群体 中 这 也 是 相当 适应 的 ， 其 适应 度 为 130。 初 始 群体 中 有 
一 个 基因 组 与 之 匹配 ， 在 下 一 代 中 也 有 一 个 相同 的 。 这 个 模式 生存 下 来 ， 仅 仅 因为 包含 它 的 
基因 组 与 另外 的 基因 组 没有 交叉 。 交 叉 或 许 会 破坏 它 。 下 面 与 交叉 之 后 的 10 * xx 进行 比 
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较 。 模 式 的 定义 距离 愈 短 ， 或 许 愈 可 能 从 一 代 生 存 到 下 一 代 。 因 此 ， 即 使 非常 适应 的 较 长 的 
模式 也 极 有 可 能 被 比较 短 但 适应 的 同辈 代替 。 使 用 比较 复杂 的 交叉 技术 ， 诸 如 作 两 个 切 块 ， 
会 完全 改变 其 行为 。 用 更 复杂 的 技术 ， 定 义 距 离 不 再 有 效 ， 而 且 Holland 在 模式 上 的 结果 不 
再 成 立 。 


这 个 面 的 模 
趟 是 **0 


000 100 


模式 是 *00 
图 13-3 ”立方体 是 模式 的 一 种 有 效 的 3 位 元 表示 。 角 表示 基因 组 ， 边 表示 阶 为 2 
的 模式 ， 面 表示 阶 为 1 的 模式 ， 整 个 立方 体 表示 阶 为 0 的 模式 


Holland 精确 地 证 明了 这 两 个 观察 ， 并 总 结 为 模式 定理 〈 也 称 为 遗传 算法 的 基本 定理 ): 
短 的 、 低 阶 的 、 具 有 平均 适应 度 的 模式 在 从 一 代 到 下 一 代 的 群体 中 有 所 增加 。 换 言 之 ， 短 
的 、 低 阶 的 模式 是 遗传 算法 工作 的 构建 块 。 从 一 代 到 下 一 代 ， 最 适应 的 构建 块 生 存 下 来 ， 彼 
此 结合 产生 越 来 越 适 应 的 基因 组 。 

模式 定理 说 明 遗 传 算法 确实 搜 遍 可 能 的 模式 ， 寻 找 从 一 代 生 存 到 下 一 代 的 适应 的 构建 
块 。 一 个 自然 的 问题 是 ， 典 型 地 需要 处 理 多 少 构建 块 ? 此 处 细节 我 们 一 带 而 过 ， 但 是 Hol- 
land 证 明 ， 包 含 ”个 基因 组 的 群体 ， 其 处 理 模式 的 数目 与 ”成 比例 。 这 意 谓 着 即使 当前 只 
影响 ”个 基因 组 ， 每 代 仍 需要 评估 "2? 个 不 同 的 模式 。Holland 称 这 种 性 质 为 隆 仿 并行 性 。 
遗传 算法 的 计算 工作 与 群体 的 规模 成 比例 ， 而 且 在 这 个 工作 中 ,算法 有 效 地 处 理 与 ze 成 比 
例 的 若干 模式 。 隐 含 并 行 性 不 能 与 在 工作 站 的 分 布 式 网 络 上 运行 的 遗传 算法 可 用 的 显 式 并 行 
性 混淆 ， 或 者 与 在 拥有 多 处 理 器 的 计算 机 上 运行 该 算法 时 可 用 的 显 式 并 行 性 混淆 。 

模式 定理 揭示 了 为 什么 当 基因 组 的 表示 法 中 只 有 两 个 符号 〈0 和 1) 时 效果 良好 。 发 现 
最 佳 构建 块 需要 处 理 从 一 代 到 下 一 代 的 尽 可 能 多 的 模式 。 对 于 两 个 符号 ， 给 定 距 离 为 length 
的 不 同 基因 组 的 数目 是 2*e" ， 不 同 模式 的 数目 是 3“e。 概 略 地 ， 依 据 单个 基因 组 要 处 理 的 
独特 模式 的 数目 是 大 约 1.5“em"。 现 在 ， 如 果 在 字母 表 中 有 更 多 的 符号 ， 如 增加 2 和 3， 人 情 
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况 如 何 呢 ? 现在 给 定 距 离 的 基因 组 数 且 是 4engh， 而 且 不 同 模式 的 数目 是 Sength (因为 星 号 增 
加 了 另外 一 个 符号 ) 。 尽 管 有 更 多 的 模式 ， 与 给 定 基 因 组 对 应 的 模式 的 数目 只 有 1.25Iest。 
当 符 号 的 数目 增 大 时 ， 模 式 的 相对 数目 减少 。 考 察 这 一 点 的 另 一 种 方法 是 考虑 模式 * 00。 如 
果 字 母 表 中 只 有 两 个 字母 ， 那 么 只 有 两 个 基因 组 000 和 100 处 理 这 个 模式 。 如 果 有 四 个 字 
母 ， 那 么 有 四 个 基因 组 : 000、100、200 和 300。 因 为 遗传 算法 尝试 使 用 给 定 的 群体 规模 找 
出 最 佳 模 式 ， 增 加 额外 的 基因 组 对 搜寻 没有 帮助 。 

模式 是 解决 方案 的 构建 块 ， 仅 使 用 两 个 符号 允许 模式 的 最 大 值 由 给 定 的 群体 规模 来 表 
示 。 这 些 估计 并 不 精确 ， 但 是 发 人 深思 。 更 多 精确 的 考察 确认 了 这 一 结果 ， 即 从 模式 处 理 的 
观点 来 看 ， 两 个 符号 的 字母 表 是 最 佳 的 。 


13.4 遗传 算法 的 更 多 应 用 


遗传 算法 已 经 用 来 解决 一 些 实际 问题 。 本 节 讨 论 遗 传 算法 的 两 个 应 用 ， 第 一 是 在 神经 网 
络 方面 的 应 用 ， 其 次 是 在 预言 性 建 模 方面 的 应 用 。 


13.4.1 在 神经 网 络 方面 的 应 用 


神经 网 络 簿 传 算法 是 自然 的 盟友 。 遗 传 算法 的 强项 之 一 是 处 理 黑箱 的 能 力 ， 即 适应 度 
函数 可 用 ， 但 计算 细节 未 知 的 情况 。 使 用 遗传 算法 训练 神经 网 络 是 一 个 好 的 例子 ， 虽 然 这 种 
训练 方法 并 不 常见 。 

图 13-4 举例 说 明 一 个 简单 的 神经 网 络 ， 带 有 三 个 输入 结 点 、 有 两 个 结 点 的 隐藏 层 和 一 
个 单一 的 输出 结 点 。 使 网 络 运转 良好 的 关键 是 调整 边 上 的 权重 ， 以 便 使 输出 产生 对 适当 输入 
的 正确 答案 。 第 7 章 讨论 了 结 点 内 函数 的 性 质 ， 以 及 标准 训练 算法 如 何 进行 。 而 对 目前 的 讨 
论 ， 需 要 做 的 是 对 任何 给 定 的 一 组 权重 和 输入 ， 网 络 能 产生 一 个 输出 。 权 重 是 实数 ， 有 一 个 
包含 一 组 输入 和 一 个 相应 的 正确 输出 的 训练 集 。 


甚至 不 需要 真正 了 解 一 个 神经 网 络 如 何 工作 ， 就 可 以 将 权重 聚集 
到 基因 组 之 内 ， 以 便 遗 传 算法 可 以 优化 它们 


每 个 权重 由 一 定数 目 
的 位 元 来 表示 


10110001 


图 13-4 神经 网 络 可 以 用 遗传 算法 能 够 优化 的 权重 来 描述 
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第 一 个 需要 面 对 的 问题 是 决定 基因 组 看 起 来 像 什么 。 基 因 组 由 所 有 聚集 在 网 络 中 的 权重 
构成 。 适 应 度 函 数 是 什么 ?适应 度 函 数 使 用 权重 产生 一 个 网 络 ， 然 后 把 这 个 模型 应 用 于 训练 
集 。 然 后 适应 度 函 数 将 神经 网 络 的 预测 输出 和 实际 的 输出 进行 比较 ; 因此 ， 适 应 度 函 数 被 定 
义 为 具有 训练 集 上 的 那些 权重 的 神经 网 络 的 全 部 误差 。 遗 传 算法 通过 最 小 化 这 个 函数 进行 。 

在 神经 网 络 的 另 一 个 应 用 是 决定 网 络 的 拓扑 结构 ， 即 在 隐藏 层 (hidden layer) 中 应 该 有 
多 少 结 点 和 应 该 使 用 哪 种 激活 函数 。 不 同 的 拓扑 结构 被 描述 为 不 同 的 权重 组 ， 然 后 遗传 算法 
能 继续 去 发 现 最 佳 者 。 在 这 种 情况 下 ， 适 应 度 函 数 产生 被 基因 组 描述 的 网 络 ， 然 后 使 用 标准 
方法 去 训练 网 络 ， 并 把 来 自 最 佳 网 络 的 误差 作为 适应 度 函 数 。 这 是 遗传 算法 用 于 发 现 复杂 问 
题 最 优 解 的 一 个 例子 。 


13.4.2 案例 研究 : 为 响应 建 模 完 善 一 个 解决 方案 


遗传 算法 的 一 个 更 重要 的 应 用 是 解决 真正 的 商业 问题 。 客 户 的 直接 反馈 是 强 有 力 的 商业 
信息 来 源 。 窜 户 提出 抱怨 的 时 候 ， 公 司 有 机 会 通过 迅速 地 修正 问题 而 赢得 一 个 好 印象 ， 或 者 
假如 太 晚 ， 可 以 设法 弥补 问题 。 对 于 一 些 公 司 ， 像 产品 制造 商 ， 抱 怨 能 提供 实际 产品 使 用 的 
日 期 ， 即 加 入 制造 业 和 运送 日 期 的 一 点 附加 信息 。 客 户 抱怨 也 给 公司 提供 改进 工序 的 机 会 ， 
以 便 未 来 减少 不 满意 的 客户 。 

在 我 们 为 移动 电话 公司 创建 保持 〈retention) 模型 的 工作 中 ， 已 经 看 到 给 客服 中 心 打 电 
话 的 客户 比 其 他 客户 更 忠诚 的 情形 。 显 然 ， 响 应 客户 表达 的 需求 ， 尤 其 当 响 应 迅速 和 适当 的 
时 候 ， 能 使 客户 变 得 更 快乐 和 更 忠诚 。 在 另 一 家 移动 电话 公司 ， 呼 叫 客服 中 心意 味 着 较 高 的 
流失 率 ， 无 疑 是 由 于 在 呼叫 中 心 长 久 的 等 待 。 

这 一 案例 研究 讨论 了 使 用 遗传 算法 的 思想 ， 将 抱怨 分 类 为 抱怨 和 称 狗 。 

1. 商业 环境 

一 家 主要 的 国际 航空 公司 客户 服务 部 ， 处 理 通过 以 下 几 种 渠道 获取 的 客户 评论 : 

。 在 飞机 上 提供 的 杂志 中 含有 的 响应 卡 

。 在 航空 公司 网 站 上 的 评论 表 

。 给 客户 服务 中 心 打 电话 

。 卡 、 信 件 和 电子 邮件 消息 

不 同 的 评论 有 不 同 的 响应 优先 次 序 。 举 例 来 说 ， 称 壮 可 能 导致 一 种 自动 回复 类 型 的 消息 ， 
如 “谢谢 你 成 为 忠诚 的 客户 *。 另 一 方面 ， 所 有 的 抱 奶 至 少 需要 答谢 ， 而 且 许 多 抱怨 是 需要 探 
究 到 底 的 行为 。 公 司 响应 得 越 时 ， 那 么 保存 或 许 是 有 价值 的 、 但 不 满意 的 客户 的 机 会 越 大 。 

航空 公司 的 人 员 花 费 相 当 多 的 时 间 分 析 客 户 评论 ， 首 先 将 它们 分 类 为 抱 急 和 其 他 评论 ， 
然后 把 抱怨 送 和 适当 的 组 进行 追踪 。 当 客户 已 经 为 丢失 行李 、 航 班 取消 、 粗 暴 的 服务 或 污 移 
的 食物 难过 的 时 候 ， 龟 慢 的 或 不 适当 的 响应 只 会 使 事情 变 得 更 坏 。 这 个 航空 公司 决定 通过 自 
动 操作 评论 的 初始 分 类 来 减少 对 抱怨 的 响应 时 间 。 该 方法 使 用 马萨诸塞 州 Newburyport 的 一 
家 软件 公司 Genalytics (www.genalytics.com) 的 软件 来 完善 解决 方案 。 

2. 数据 

无 论 评 论 来 自 哪 个 获取 渠道 ， 所 有 的 客户 评论 最 后 都 被 送 到 评论 数据 库 中 。 数 据 库 既 包 
含 描述 评论 的 字段 ， 也 包含 实际 的 文本 。 一 条 完整 的 客户 评论 记录 有 下 列 字段 : 

。 日 期 
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。 来 源 (电子 邮件 、 意 见 卡 、 电 话 联系 、 书 信 、 其 他 ) 

。 航 班 号 

。 服 务 类 别 

。 始 发 机 场 

。 目 标 机 场 

。 里 程 计 数 

* 收 到 评论 的 部 门 

。 涉 及 到 的 航空 公司 职员 的 名 字 ， 如 果 提 到 了 的 话 
。 自 由 文本 评论 

有 些 记录 可 能 会 丢失 一 些 字段 的 数据 。 来 自 呼 叫 中 心 的 评论 往往 填写 正确 ， 因 为 呼叫 中 
心 的 服务 生 训 练 有 素 。 然 而 ， 如 果 让 客户 自己 去 填写 客户 意见 卡 或 电子 邮件 ， 是 不 可 能 填写 
所 有 字段 的 。 

第 一 步 是 预 处 理 文 本 。 公 司 预 处 理 评 论 ， 修 改 特定 的 拼写 错误 并 产生 关于 内 容 (当前 是 
“food” 那 个 字 吗 ? 当前 是 “meal” 那 个 字 吗 ? 等 等 ) 的 很 多 衍生 变量 (derived variable) 。 对 
数据 库 中 的 每 个 字 ， 假 如 在 所 有 消息 中 出 现 的 次 数 超过 最 低 限 度 值 ， 而 且 不 是 “of” 或 
“the” 之 类 的 非常 普遍 的 字 ， 就 创建 衍生 变量 。 一 些 新 的 变量 用 于 传达 有 关 评 论 的 元 数据 ， 
像 字 节 数 、 包 含 的 不 同 字 的 数目 ， 这 些 变量 一 起 构成 评论 的 表 头 。 不 使 用 评论 本 身 ， 而 是 使 
用 各 种 不 同 的 衍生 变量 。 

3. 数据 挖掘 的 任务 : 完善 一 个 解决 方案 

数据 挖掘 的 任务 是 提出 一 个 模型 ， 把 描述 每 个 客户 评论 的 很 多 变量 作为 输入 ， 并 且 以 某 种 
方法 把 它们 结合 在 一 起 产生 一 个 分 类 。 特 定 的 任务 是 ， 基 于 是 否 是 抱怨 来 分 类 评论 的 特征 标 
识 。 有 几 种 方法 处 理 这 一 点 ， 如 使 用 决策 树 或 聚 类 。 但 在 这 种 情况 下 ， 公 司 使 用 遗传 算法 。 

用 遗传 算法 解决 问题 ， 需 要 基因 组 和 一 个 适应 度 函 数 。 基 因 组 以 预 处 理 的 评论 为 基础 ， 
每 个 评论 对 应 一 个 基因 组 。 首 先 ， 要 多 增加 几 个 字段 用 于 相互 作用 的 变量 ， 诸 如 是 否 都 提 到 
baggage 和 JFK， 或 者 是 否 都 提 到 “food” 和 “chicken”。 表 头 、 元 数据 和 相互 作用 的 变量 构 
成 评论 的 特征 标识 ， 如 图 13-5 所 示 。 


To: comments@ainline.com 
From: random_customer 


.My baggage was lost at FEK when Il changed planes . . . 


人 An 


< 人 
人 8 2 淮 失守 
多 寻 人 0 从 


ETPTPTTD]. 
人 一 一 一 一 


评论 表 头 指示 器 变量 We 
图 13-5 评论 的 特征 标识 描述 评论 文本 
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评论 的 特征 标识 不 是 基因 组 ， 但 是 与 之 相关 。 基 因 组 是 与 特征 标识 中 的 每 个 变量 对 应 的 
一 组 权重 (连同 一 个 称 为 “偏离 ”的 附加 权重 )。 可 以 将 基因 组 的 权重 乘 以 评论 的 特征 标识 
中 的 相应 字段 ， 以 预测 评论 是 否 是 抱怨 ， 如 图 13-6 所 示 。 这 是 一 个 单一 评论 的 特征 标识 的 
适应 度 函 数 。 全 适应 度 函数 把 这 一 点 应 用 到 训练 集 的 所 有 评论 的 特征 标识 。 


办 
浴 这 
闪 人 wA 
ES 5 ES _ SN SS ES 
夫 区 人 人 3 RS 
多 区 考 人 ”大 
机 | 


图 13-6 ”对 于 评论 的 特征 标识 中 的 每 个 字段 ， 基 因 组 有 一 个 权重 ， 
另外 有 一 个 称 为 “偏离 ”的 附加 权重 


Genalytics 系统 产生 一 个 基因 组 的 随机 群体 。 这 些 基因 组 通常 把 大 多 数 权重 设 定 为 低 的 
数值 ， 只 把 少数 一 些 设 定 为 高 的 数值 。 也 即 ， 初 始 群体 由 评论 的 特征 标识 中 最 简单 特征 的 特 
定 基 因 组 构成 。 虽 然 初始 群体 构成 简陋 ， 但 是 应 用 选择 、 交 叉 和 变异 后 ， 效 果 越 来 越 好 。 在 
数 万 代 之 后 ， 最 终 模 型 能 够 正确 分 类 85% 的 记录 ， 这 对 加 速 航空 公司 的 抱怨 处 理 已 经 足够 
了 。 图 13-7 中 的 图 表 展示 了 适应 度 函 数 在 下 一 代 的 改进 情况 。 


209 
人 naratien 


图 13-7 ”Genalytics 系统 展示 了 训练 过 程 ， 以 及 适应 度 函 数 如 何 随 每 一 代 有 所 改进 
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13.5 超越 简单 算法 


研究 人 员 已 经 在 几 个 方向 上 扩大 了 址 传 算法 的 界限 。 一 些 增强 是 对 基本 算法 的 提炼 ， 其 
他 一 些 修 改 了 基本 算法 ， 以 便 在 自然 界 中 提供 一 个 遗传 基因 活动 的 更 好 模型 。 这 项 工作 时 常 
在 机 器 学 习 的 领域 下 进行 ， 是 当前 人 工 智 能 的 研究 领域 ， 目 的 是 使 计算 机 能 够 模仿 人 类 的 广 
法 进行 学 习 。 像 Genalytic 的 公司 已 经 开始 把 这 些 进化 技术 应 用 到 营销 。 

先前 描述 的 简单 遗传 算法 在 几 个 方面 有 改进 的 空间 。 算 法 的 无 效 性 之 一 是 ， 从 一 代 到 下 
一 代 的 进化 中 ， 整 个 群体 被 更 换 这 一 事实 。 这 是 对 自然 界 中 所 发 生 事情 的 显著 的 过 度 简单 化 
(oversimplification) 。 一 些 研究 人 员 已 经 开始 不 再 更 换 整个 群体 ， 而 是 搭建 可 以 按照 一 定 大 
小 增长 的 重 梅 的 群体 ， 即 引入 拥挤 的 概念 ， 以 决定 哪 一 个 现 有 的 成 员 应 该 更 换 。 当 纯粹 应 用 
的 时 候 ， 容 易 造成 非常 快速 的 收敛 ， 通 常 是 次 优 解 ， 因 为 所 有 的 较 不 合适 的 基因 组 在 有 机 会 
繁殖 之 前 已 经 被 更 换 一 一 不 太 合适 的 基因 组 有 时 也 能 提供 一 些 帮助 。 为 了 处 理 这 一 点 ， 用 于 
更 换 的 目标 时 常 取 自 具有 高 相似 度 的 群体 的 子 集 。 

过 度 快 速 收 敛 的 问题 实际 上 是 简单 遗传 算法 的 一 个 问题 ， 因 为 寻找 整体 最 优 解 的 目标 容 
易 与 局 部 最 优 解 混淆 。 过 度 快 速 收 和 敛 时 常 表明 搜索 是 受 限制 的 。 为 了 处 理 这 一 点 ， 对 于 交 又 
和 变异 的 各 种 不 同 的 概率 ， 时 常 在 最 初 被 设 定 为 高 的 值 ， 然 后 从 一 代 到 下 一 代 的 过 程 中 逐渐 
减少 。 或 者 ， 当 适应 度 在 整个 群体 中 变 得 更 和 谐 的 时 候 ， 人 允许 初始 群体 规模 在 收缩 之 前 增长 。 

迄今 为 止 ， 讨 论 的 基因 组 只 由 一 个 基因 单 链 构成 。 我 们 在 中 学 不 是 学 了 DNA 是 由 两 个 
缠绕 的 链 组 成 的 螺旋 结构 吗 ?” 而且 那 些 隐藏 在 过 去 的 中 学 背景 的 其 他 概念 ， 像 隐 人 性 基因 和 支 
配 基因 ， 又 如 何 呢 ? 迄今 为 止 使 用 的 遗传 学 ， 是 以 自然 界 中 发 现 的 最 简单 的 染色 体 为 基础 ， 
是 单线 或 单 链 业 色 体 。 这 些 染 色 体 容易 在 不 复杂 的 、 单 细胞 生物 体 中 发 现 。 在 比较 复杂 的 生 
物体 中 ， 染 色 体 是 双 线 ， 或 双 链 ， 正 如 人 类 的 DNA 一 样 。 

双 链 染色 体 的 算法 特征 与 单 链 染 色 体 大 致 相同 ， 因 为 双 链 染 色 体 可 视 为 两 个 染色 体 绑 在 
一 起 。 实 际 的 算法 也 以 非常 相似 的 方式 进行 : 选择 、 交 叉 和 变异 都 相同 。 差 别 在 于 ， 每 个 遗 
传 基因 有 两 个 等 位 基因 (两 个 可 能 的 值 )， 而 不 是 一 个 。 当 它们 匹配 的 时 候 ， 没 有 任何 问题 。 
当 它们 不 匹配 的 时 候 ， 使 用 哪个 适应 度 函 数 ?用 遗传 学 的 术语 ， 这 是 询问 鲫 一 个 等 位 基因 处 
于 支配 地 位 。 举 例 来 说 ， 当 蓝 腿 睛 的 一 个 等 位 基因 与 棕色 眼睛 的 一 个 等 位 基因 配对 时 ， 棕 色 
眼睛 的 等 位 基因 “获胜 "， 即 不 是 蓝 眼 睛 的 基因 ， 而 是 棕色 眼睛 的 基因 处 于 支配 地 位 〈 实 际 
上 ， 眼 睛 的 颜色 比 这 个 简单 的 例子 更 复杂 ， 但 是 这 有 益 于 说 明 目 的 )。 研 究 人 员 通 过 包括 关 
于 等 位 基因 的 支配 地 位 信息 ， 已 经 解决 了 这 个 问题 。 这 个 机 制 的 细节 已 超出 本 书 的 范围 ， 感 
兴趣 的 读者 可 以 查阅 Goldberg 的 经 典 著 作 Geretic ALgoritphras i Seazrci ，Opiizaizatioz ， 
a1d Machize Learzzzag (1989 年 ， Addison-Wesley 出 版 ，ISBN: 0201157675 ) 。 

为 什么 应 该 考虑 双 链 结构 ? 遗传 学 家 很 久 以 来 一 直 不 明白 为 什么 双 链 染色 体 在 自然 界 中 
居 主 导 地 位 ， 而 单 链 染色 体 更 简单 。 他 们 相信 双 链 结构 允许 生物 体 “ 记 住 ”一 个 基因 在 另外 
的 环境 中 有 效 ， 但 在 目前 的 环境 中 不 太 有 用 。 用 GA 的 术语 表达 ， 就 是 当 环 境 或 者 适应 度 函 
数 随时 间 变 化 的 时 候 ， 这 些 是 有 用 的 。 在 现实 世界 中 ， 这 可 能 被 证 明 是 相当 有 用 的 。 改 变 适 
应 度 函 数 的 一 个 例子 是 确定 证 券 按 时 间 变 化 的 价格 函数 。 给 定 的 证 券 价 格 的 优势 依赖 于 算法 
不 能 控制 的 因素 ， 像 通货 膨胀 率 。“ 适 应 度 ” 函 数 可 以 通过 结合 通货 膨胀 随时 间 变 化 的 估计 
来 考虑 这 一 点 。 
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13.6 小 结 


遗传 算法 是 非常 强 有 力 的 优化 技术 。 优 化 不 是 数据 挖掘 的 核心 ， 但 是 能 解决 有 趣 的 、 重 
要 的 问题 。 事 实 上 ， 像 神经 网 络 这 样 的 一 些 数据 挖掘 算法 在 神秘 面纱 的 背后 依赖 于 优化 。 

遗传 算法 功能 的 关键 是 它们 只 依赖 于 两 件 事情 。 第 一 是 基因 组 ， 第 二 是 适应 度 函 数 。 适 
应 度 函 数 从 看 似 位 元 的 一 个 随机 集合 产生 一 个 数值 ， 以 此 使 基因 组 有 意义 。 基 因 组 将 问题 编 
码 ， 时 常 是 由 状态 相等 的 一 组 权重 构成 。 遗 传 算法 在 各 种 适应 度 函 数 上 工作 ， 使 得 把 许多 不 
容易 处 理 的 、 不 同类 型 的 问题 进行 编码 成 为 可 能 。 

进化 的 过 程 从 一 个 随机 的 群体 开始 ， 然 后 应 用 三 种 变换 步骤 。 第 一 是 选择 ， 这 意味 着 从 
一 代 到 下 一 代 ， 更 适应 的 基因 组 能 生存 下 来 。 这 与 自然 选择 相对 应 。 其 次 是 交叉 ， 其 中 两 个 
基因 组 交叉 片段 ， 也 与 自然 过 程 相似 。 第 三 是 变异 ， 其 中 一 些 数 值 被 随意 改变 。 不 管 在 自然 
界 还 是 遗传 算法 中 ， 变 异 通常 都 相当 罕见 。 

应 用 这 三 个 过 程 产生 一 个 新 代 ， 其 平均 适应 度 应 该 比 初 始 者 更 大 。 创 建 了 越 来 越 多 的 代 
之 后 ， 群 体 移 向 一 个 最 优 解 。 这 些 过程 有 一 个 基于 模式 的 理论 基础 ， 它 解释 了 遗传 算法 如 何 
向 一 个 解 移动 。 

遗传 算法 已 经 被 应 用 于 一 些 实际 问题 ， 常 常 应 用 于 资源 优化 问题 。 然 而 ， 正 如 在 对 航空 
公司 的 评论 分 类 案例 研究 中 介绍 的 ， 它 们 甚至 可 以 用 于 预言 性 建 模 和 分 类 。 
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数据 挖掘 的 目的 是 帮助 商业 理解 其 最 重要 资产 的 价值 ， 这 种 资产 就 是 客户 。 前 儿 章 已 经 
讨论 了 使 数据 控 掘 成 功 的 一 些 算法 和 方法 论 。 本 章 从 特定 的 技术 转向 客户 。 下 面 的 三 章 继续 
讨论 这 一 主题 ， 远 离 技术 上 的 算法 ， 讨 论 数据 和 使 用 数据 挖掘 需要 的 系统 环境 。 

几乎 对 于 任何 商业 ， 客 户 都 是 最 重要 的 资产 。 然 而 ， 因 为 随时 间 变 更 的 不 同 关系 的 广泛 
多 样 性 ， 他 们 是 难以 捉摸 的 。 不 同 的 行业 有 不 同 的 客户 定义 。 在 一 种 行业 中 ,不 同 的 竞争 者 
用 不 同 的 方法 管理 这 些 关 系 。 一 些 行业 关注 服务 质量 ， 一 些 关注 便 利 性 ， 一 些 关 注 价 格 ， 还 
有 一 些 关注 关系 的 其 他 方面 。 没 有 两 个 商业 有 移 全 相同 的 客户 定义 ， 也 不 会 在 客户 关系 中 以 
完全 相同 的 方式 对 待 客户 。 

数据 挖掘 的 目的 是 补充 其 他 的 客户 服务 ， 而 不 是 代替 它们 。 企 业 通过 很 多 渠道 与 客户 交 
互 ， 如 直接 邮寄 物品 、 通 过 呼叫 中 心 、 面 对 面 和 通过 广告 。 现 在 , “鼠标 加 水 泥 ”(click and 
mortar) 的 企业 经 营 方法 逐渐 成 为 标准 ， 大 多 数 企业 为 客户 提供 在 线 界面 。Web， 由 于 具备 
与 客户 交互 的 新 能 力 ， 有 潜力 提供 丰富 的 客户 行为 数据 ， 这 些 数 据 可 以 变 成 客户 关系 的 新 窗 
口 。 在 很 大 程度 上 ， 认 为 代替 人 与 人 交互 的 科技 能 够 使 得 公司 更 人 性 化 地 对 待 客户 ， 是 带 有 
嘲弄 意味 的 。 

这 把 我 们 带 回 客户 和 客户 生存 周期 。 本 章 努 力 使 数据 挖 所 关注 在 中 心 的 客户 。 它 首先 概 
要 讨论 不 同类 型 的 客户 关系 ， 然 后 讨论 客户 生存 周期 的 细节 ， 因 为 这 与 数据 控 气 有关。 本 章 

提供 了 不 同行 业 中 客户 关系 的 定义 ， 以 及 在 决定 客户 关系 何 时 开始 、 何 时 结束 时 的 一 些 议 
题 。 焦 点 是 客户 以 及 客户 与 公司 之 间 的 事务 关系 。 


14.1 客户 关系 层次 


数据 挖掘 的 主要 目标 之 一 ， 是 了 解 客 户 以 及 客户 与 企业 之 间 的 关系 。 更 好 地 了 解 他 们 的 
一 个 好 的 开端 是 使 用 不 同 的 客户 关系 层次 ， 了 解 客户 透 过 行为 所 暗示 的 事情 。 

客户 可 以 产生 丰富 的 行为 信息 。 每 一 笔 支 付 、 到 客户 服务 中 心 的 每 个 呼叫 、 在 Web 上 
的 每 次 点 击 、 每 笔 交 易 ， 都 提供 有 关 客 户 行为 的 信息 ， 以 及 何 时 和 哪 种 干预 起 作用 ， 哪 种 不 
起 作用 。Web 是 一 个 特别 丰富 的 信息 来 源 。CNN 不 知道 谁 在 关注 他 们 的 电视 新 闻 节 目 ,《 纽 
约 时 报 》(New York Times) 不 知道 每 位 读者 阅读 报纸 的 哪个 部 分 ， 尽 管 在 Web 上 ，cnn.com 
和 nytimes.com 都 提供 了 一 个 有 关 读 者 兴趣 的 更 好 指示 。 按 时 间 把 这 些 信 息 源 连 接 回 相应 的 
个 体 具 有 挑战 性 〈 更 不 要 说 按时 间 把 读者 的 兴趣 与 相关 广告 连接 在 一 起 的 挑战 了 )。 

不 可 能 同等 对 待 所 有 的 客户 ， 因 为 一 些 客户 显然 比 另 一 些 客户 更 有 价值 。 图 14-1 展示 
了 客户 关系 的 分 类 差异 排序 ， 是 从 每 个 关系 的 投资 价值 数量 考虑 的 。 一 些 客户 值得 投入 很 大 
精力 维系 非常 深入 的 密切 关系 ， 是 人 们 围绕 的 中 心 。 其 他 的 客户 太 多 和 个 体 化 ， 不 值得 维系 
个 体 关 系 。 对 于 这 个 组 ， 我 们 需要 使 用 技术 使 关系 变 得 更 亲密 。 第 三 组 也 许 是 最 具 挑 战 性 
的 ， 因 为 他 们 介 于 有 真正 的 亲密 关系 和 假 亲 密 关 系 的 人 之 间 。 这 一 组 时 常 含 有 小 的 商业 关系 
和 间接 关系 。 后 面 “ 没 有 客户 关系 ”部 分 谈论 另 一 种 情形 ， 即 不 理解 和 不 需要 理解 最 终 用 户 
的 公司 。 
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客户 ( 低 度 亲密 ) 非常 小 的 企业 小 型 企业 和 中 型 企业 天 企业 (深度 亲密 ) 
许多 客户 少数 客户 
对 利润 的 每 一 份 微小 贡献 对 利润 的 每 一 份 重大 贡献 
在 可 合 中 非常 重要 订 密 重要 的 个 体 和 聚合 
大 众 亲密 销售 力 自动 化 
客户 关系 管理 账户 管理 支持 


图 14-1 客户 关系 中 的 亲密 通常 随 着 账户 规模 的 增加 而 增 大 


14.1.1 深度 亲密 


值得 维系 深度 亲密 (deep intimacy) 关系 的 客户 通常 是 大 企业 ， 即 商业 客户 。 这 些 客户 
以 账户 经 理 和 账户 梯队 的 形式 出 现 ， 大 到 足以 投入 专用 的 资源 。 这 种 关系 通常 是 某 种 企业 对 
企业 的 关系 。 一 次 性 的 产品 和 服务 刻画 了 这 些 关 系 ， 使 比较 不 同 的 客户 变 得 困难 ， 因 为 每 位 
客户 有 一 组 独特 的 产品 。 

一 个 例子 是 麦当劳 公司 、 可 口 可 乐 和 迪斯尼 三 大 品牌 的 强 强 联手 。 考 当 劳 公司 是 全 球 最 
大 的 可 口 可 乐 零 售 商 。 当 迪斯尼 在 儿童 影院 的 快餐 店 进行 特别 的 促销 活动 时 ， 麦 当 劳 公司 首 
先 在 欢乐 套餐 里 分 发 玩具 ， 获 得 第 一 份 收益 。 当 迪斯尼 人 物 〈 至 少 是 那些 知名 人 物 !) 选择 
汽水 或 打开 冰箱 ， 极 有 可 能 就 有 可 口 可 乐 。 可 口 可 乐 也 和 迪斯尼 有 业务 合作 ， 因 此 ， 巡 斯 尼 
在 主题 公园 、 旅 馆 和 游乐 船上 供应 可 口 可 乐 产 品 。 数 以 百 计 的 人 一 起 工作 ， 使 这 三 大 品牌 的 
联手 合作 得 以 顺利 进行 。 数 据 挖掘 ， 即 使 拥有 在 最 快 的 计算 机 上 的 最 高 级 算法 ， 也 不 能 代替 
这 些 人 ， 这 些 程序 也 不 会 在 可 预知 的 未 来 被 自动 化 。 

另 一 方面 ， 甚 至 大 的 账户 梯队 和 个 别 账户 经 理 都 能 从 分 析 中 受益 ， 特 别 是 使 用 销售 力 自 
动工 具 。 数 据 挖掘 分 析 通 过 提供 对 正在 进行 的 事情 的 理解 ， 能 帮助 这 样 的 组 更 好 地 工作 。 数 
据 还 能 帮助 发 现 一 些 有 用 的 答案 : 哪 家 考 当 劳 分 店 特别 擅长 销售 软饮料 ? 产品 放置 在 娜 里 销 
售 较 好 ? 在 旅馆 和 主题 公园 ， 天 气 和 饮料 消费 之 间 有 什么 关系 ? 如 此 等 等 。 


没有 客户 关系 

东京 的 街道 两 边 有 很 多 排 成 一 行 的 、 像 7-11 的 商店 ， 或 者 在 曼哈顿 抛 角 的 便利 店 。 这 
些 商 店 出 售 小 批量 的 产品 ， 大 多 是 食物 ， 包 括 刚刚 制作 的 午餐 。 有 三 家 公司 Lawsons、Sev- 
en-Eleven japan 和 Family Mart 支配 这 些 市 场 ， 其 中 第 三 大 公司 Family Mart 每 天 的 交易 额 大 
约 2000 万 。 日 本 人 口 超过 1.2 亿 ， 这 意味 着 平均 每 个 日 本 人 每 隔 一 天 要 从 这 些 商 店 之 一 购 
买 一 些 东 西 。 这 是 一 种 巨大 的 客户 交互 量 。 

下 面 更 深入 地 考察 这 些 商 业 活动 。 这 些 公司 对 于 它们 的 客户 知道 的 惟一 事情 是 几乎 每 一 
个 生活 在 日 本 的 人 至 少 都 是 一 个 偶然 的 买主 ， 而 且 在 这 里 几乎 全 部 是 现金 交易 ， 因 此 公司 无 
法 将 客户 与 在 不 同 商店 的 一 系列 时 间 序 列 交易 联系 起 来 。 

这 些 公 司 的 职能 在 于 分 销 和 付款 。 在 分 销 方 面 ， 他 们 能 够 每 天 给 商店 送 三 次 货 ， 保 证 午 
餐 时 间 的 寿司 是 新 鲜 的 ， 而 且 产品 没有 过 期 ， 许 多 人 通过 家 庭 附 近 的 商店 用 现金 支付 账单 ， 
在 现金 居 统 治 地 位 的 社会 ， 这 是 很 方便 的 事情 。 结 合 这 两 种 业务 情况 ， 一 些 商 店 慢 慢 地 变 成 
订单 的 分 段 点 ， 客 户 通过 目录 或 者 在 Web 上 下 订单 ， 然 后 在 舒适 的 、 邻 近 的 便利 商店 支付 
和 提取 货物 。 
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日 本 的 便利 商店 是 一 个 极端 的 商业 例子 ， 他 们 对 客户 了 解 很 少 。 货 物 打包 厂 商 是 另外 一 
个 例子 ， 因 为 他 们 不 拥有 零售 关系 。 

制造 商 只 知道 他 们 何 时 把 货物 运 给 仓库 。 最 终 用 户 的 信息 仍然 很 重要 ， 但 是 其 行为 数据 
不 在 他 们 的 数据 库 ， 而 在 不 同 零售 商 的 数据 库 中 。 为 了 发 现 客户 行为 ， 他 们 可 能 : 

@ 使 用 客户 的 行业 范围 来 发 现 产品 如 何 被 使 用 

4 通过 调查 发 现 客户 和 他 们 使 用 的 产品 

4 建立 和 零售 商 的 关系 ， 得 到 对 销售 点 数据 《point-of-sale data) 的 访问 权 

4 留意 他 们 正在 收集 的 数据 ， 包 括 来 自 WWeb、 客 户 服务 中 心 以 及 邮件 的 客户 反馈 信息 

分 发 数据 确实 有 巨大 的 价值 ， 能 够 提供 正在 销售 什么 物品 的 线索 ， 以 及 何 时 和 在 哪里 销 
售 。 其 韶 的 潜在 信息 包括 哪 则 广告 消息 应 该 送 到 哪里 ， 哪 一 款 产品 更 流行 ， 这 都 是 数据 控 据 
可 以 做 的 事情 。 


在 商务 对 元 务 方面 ， 甚 至 大 的 财政 机 构 也 能 从 了 解 客户 中 受益 。 世 界 上 最 大 的 一 家 银行 
想 要 分 析 外 汇兑 换 交 易 ， 以 便 决 定 娜 些 客户 会 受益 于 以 一 种 货币 贷款 而 使 用 另 一 种 货币 还 
款 ， 而 不 是 以 一 种 货币 贷款 并 预先 兑换 还 款 ， 目 标 是 为 客户 提供 更 好 的 产品 和 一 个 较 长 期 的 
合作 关系 。 然 而 ， 人 们 需要 解释 这 些 结果 ， 依 据 这 些 结果 行动 。 

虽然 深入 的 合作 关系 时 常 与 大 型 商业 主 相 关 ， 但 也 不 总 是 这 样 。 零 售 界 的 私人 银行 集团 
与 纯 收 入 高 的 个 体 合 作 ， 而 且 给 他 们 提供 高 度 个 性 化 的 服务 一 一 通常 有 一 个 指定 的 金融 家 管 
理 他 们 的 关系 。 当 私人 银行 客户 需要 贷款 或 进行 投资 ， 只 需要 呼叫 他 或 她 的 私人 金融 家 。 私 
人 银行 集团 通常 收益 颇 丰 ， 利 润 之 多 得 以 使 他 们 能 不 爱 任何 事情 的 约束 。 在 一 家 大 银行 的 私 
人 银行 集团 能 够 突破 公司 的 信息 技术 标准 ， 引 进 Macintosh 计算 机 和 AS400， 而 其 他 银行 的 
标准 是 Windows 和 Unix。 私 人 银行 有 能 力 做 这 件 事 情 ， 因 为 他 们 有 经 济 实 力 。 

同时 ， 仅 仅 有 大 型 商业 主 作为 客户 ， 并 不 意 昧 着 每 个 客户 都 值得 如 此 密切 的 关注 。 不 管 
是 在 Web 上 还 是 在 黄页 电话 短 上 ， 都 有 许多 商业 客户 ， 但 是 几乎 所 有 的 人 都 被 同等 对 待 。 
虽然 客户 包含 许多 大 的 商业 主 ， 但 是 每 个 列表 带 来 很 少 的 收入 ， 太 少 以 至 于 不 值得 花费 更 多 
精力 。 


14.1.2 大 众 亲 密 


另 一 个 极端 是 大 众 亲 密 〈mass intimacy) 关系 。 在 服务 于 大 众 市 场 的 公司 ， 典 型 地 有 几 
十 万 、 数 百 万 或 数 千 万 的 客户 。 虽 然 大 多 数 的 客户 会 喜欢 有 专门 的 职员 关注 自己 的 需求 ， 但 
这 不 是 完全 经 济 可 行 的 。 公 司 必 须 雇 用 大 群 人 为 客户 服务 ， 逐 渐 增 加 的 收益 却 不 能 抵消 成 本 
消耗 。 

这 是 数据 控 掘 尤其 适合 客户 关系 管理 〈customer relationship management) 的 地 方 。 许 
多 客户 相互 作用 是 完全 自动 化 的 ， 尤 其 在 Web 上 ， 这 具有 高 度 可 调整 的 优点 ; 然而 ， 失 去 
了 客户 关系 管理 中 的 智能 化 和 客户 能 感受 到 的 温暖 感觉 。 使 用 技术 使 关系 变 得 更 强大 需要 多 
方面 的 工作 : 

。 直 接 为 客户 工作 的 人 (不管 是 面对面 ， 通 过 呼叫 中 心 ， 或 者 通过 Web 界面 ) 必须 被 

培训 ， 使 其 说 茶 地 对 待 客 户 ， 同 时 尝试 使 用 增强 的 客户 信息 扩展 关系 。 

。 自 动 化 系统 (automated system) 需要 有 灵活 可 用 ， 因此 可 以 把 不 同 的 消息 传递 给 不 同 

的 客户 。 显 然 这 适应 于 Web， 但 是 当 获 得 客户 的 时 候 ， 也 适用 于 账单 播 页、 收银 员 
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后 台 读 取 脚 本 ， 等 等 。 
职员 和 为 客户 工作 的 自动 化 系统 需要 能 够 响应 新 实践 和 新 消息 。 有 时 ， 这 些 新 的 方法 
来 自 于 职员 的 良好 观念 有 时 ,来 自 仔细 的 分 析 和 数据 挖掘 ; 有 时 ， 来自 两 者 的 结 


作 
户 


这 是 数据 控 据 民 性 循环 〈virtuous cycle) 的 一 个 扩展 。 无 论 是 通过 算法 或 人 来 完成 的 学 
习 ， 都 需要 遵照 它 行事 。 产 生 结果 与 首先 获得 它们 同样 是 必需 的 。 成 功 的 事情 包括 与 呼叫 中 
心 一 起 工作 ， 以 及 培训 与 客户 接触 的 人 。 在 Web 上 的 客户 相互 作用 具有 自动 化 的 优点 ， 使 
得 电子 地 完成 良性 循环 成 为 可 能 。 人 们 仍然 被 包括 在 管理 和 确认 结果 的 过 程 中 。 然 而 ，Web 
使 获得 数据 、 分 析 数 据 、 依 据 结 果 行 动 、 不 需要 离开 电子 媒介 测量 结果 成 为 可 能 。 

客户 了 解 的 目标 可 能 与 有 效 的 渠道 操作 相 冲突 。 举 例 来 说 ， 美 国 一 家 大 的 移动 电话 公 
司 ,在 客户 打 电 话 询问 与 服务 相关 的 问题 时 ， 尝 试 索要 客户 的 Email 地 址 。 有 E_mail 地 址 
有 很 多 好 处 。 一 是 ， 未 来 的 服务 问题 可 以 通过 Web 处 理 ， 花 费 比 通过 呼叫 中 心 低 。 二 是 ， 
它 为 偶然 的 交易 消息 、 交 叉 销 售 和 保持 等 机 会 提供 了 可 能 性 。 然 而 ， 因 为 这 个 问题 在 平均 呼 
叫 时 间 中 增加 了 几 秒 钟 ， 使 得 呼叫 中 心 业务 流量 减少 。 对 于 呼叫 中 心 来 说 ， 得 到 下 一 个 呼叫 
比 加 强 与 每 个 客户 的 关系 更 重要 。 

警告 : 隐私 是 主要 的 关注 点 ， 特 别 是 个 体 客 户 。 然 而 ， 对 数据 挖 所 本 身 是 不 重要 

的 。 在 很 大 程度 上 ， 公 司 之 间 更 关注 彼此 分 享 数 据 ， 而 不 是 某 个 公司 自己 使 用 数据 

挖 气 了 解 客户 的 行为 。 在 法 律 上 ， 如 果 把 操作 目的 得 来 的 信息 用 于 像 销售 或 改进 客 

户 关系 等 其 他 目的 ， 可 能 是 违法 的 。 

大 众 亲 密 提 出 隐私 的 议题 ， ee 
上 ， 数 据 源 是 在 客户 和 公司 之 间 的 转账 业务 ， 公 司 也 可 以 为 了 像 CRM (虽然 对 此 有 一 
法 的 例外 ) 之 类 的 商业 目的 使 用 这 些 数 据 ， 最 大 的 问题 在 于 公司 何 时 出 售 个 体 的 信息 。 尽管 
购买 这 些 数据 可 能 是 有 用 的 ， 或 者 是 有 价值 的 税收 来 源 ， 但 不 是 数据 挖掘 必需 的 部 分 。 


14.1.3 ”中间 关系 


中 间 关 系 也 许 最 具 挑 战 性 。 这 些 客户 不 够 大 ， 不 能 拥有 自己 的 账户 梯队 ， 但 也 需要 特殊 的 
产品 和 服务 。 这 些 可 能 是 中 小 型 的 商业 主 。 然 而 ， 有 一 些 其 他 的 组 ， 像 被 称 为 “大 众 富裕 人 ” 
(mass affluent) 的 银行 客户 ， 没 有 相当 的 经 济 能 力 雇用 私人 银行 ， 但 是 仍然 需要 特别 的 服务 。 

这 些 客户 比 大 众 亲 密 的 客户 拥有 更 广泛 的 产品 ， 或 者 至 少 是 批量 购买 享受 相关 折扣 的 价 
格 机 制 ， 等 等 。 他 们 也 有 比较 强烈 的 客户 服务 需求 ， 有 专门 的 呼叫 中 心 和 网 站 。 时 常 有 专门 
的 账 务 专家 同时 负责 数 十 个 或 数 百 个 这 种 关系 。 这 些 专家 不 总 是 给 予 所 有 的 客户 同样 的 关 
注 。 数 据 挖 握 应 用 之 一 就 是 传播 最 佳 实践 ， 即 发 现 哪 些 起 作用 ， 哪 些 不 起 作用 ， 并 且 传 播 这 
些 信 息 。 

在 有 数 万 客户 的 时 候 ， 也 可 以 直接 使 用 数据 控 据 发现 模式 ， 以 便 从 差 的 客户 中 区 分 出 好 
的 客户 ， 并 且 决 定 下 一 种 产品 卖 给 哪个 客户 。 这 种 应 用 和 大 众 亲 密 是 非常 相似 的 。 


14.1.4 间接 关系 


间接 关系 是 另 一 种 类 型 的 客户 关系 ， 中 间 代 理 促 成 与 最 终 用 户 之 间 的 关系 。 举 例 来 说 ， 
保险 公司 通过 代理 销售 产品 ， 而 且 通 常 是 由 代理 建立 与 客户 的 关系 。 有 些 代理 专门 销售 一 家 
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公司 的 保单 ; 而 有 些 代理 则 提供 不 同 公司 的 分 类 产品 。 

这 种 代理 关系 带 来 了 商业 挑战 。 举 例 来 说 ， 保 险 公司 一 旦 与 Data Miners 公司 建立 一 个 模 
型 ， 以 确定 娜 一 些 投保 人 可 能 取消 保单 。 开 始 这 个 计划 之 前 ， 公 司 认识 到 实施 这 样 一 个 计划 的 
严重 后 果 。 有 了 这 些 信息 ， 代 理 就 可 以 把 高 风险 的 投保 人 转向 其 他 公司 ， 结 果 是 加 速 而 不 是 防 
业 这 些 账 户 的 流失 。 这 家 公司 并 没有 实施 这 项 计划 。 也 许 问题 部 分 在 于 了 解 适当 的 干预 时 缺乏 
想 锭 。 公 司 可 以 给 代理 提供 特别 的 激励 机 制 ， 保 持 风险 客户 ， 对 相关 的 每 个 人 是 一 种 双赢 情 
形 。 在 这 种 基于 代理 的 关系 中 ， 数 据 挖掘 不 仅 能 用 于 了 解 客户 ， 也 能 够 用 于 了 解 代理 。 

间接 性 在 其 他 领域 中 也 有 发 生 。 举 例 来 说 ， 信 托 基金 公司 通过 职员 销售 退休 计划 。 首 要 
的 挑战 在 于 将 职员 自身 包括 在 该 基金 中 。 其 次 是 争取 职员 报名 合适 的 基金 。 上 述 许多 健康 保 
险 都 计划 在 美国 的 大 公司 进行 。 

产品 制造 商 也 有 类 似 的 问题 。 手 持 电 话 制造 商 ， 像 摩托 罗拉 、 诺 基 亚 和 爱立信 ， 都 想 发 
展 一 个 忠诚 的 客户 基础 ， 因 此 ， 经 过 一 代 又 一 代 手 机 ， 客 户 继续 返回 本 公司 。 汽 车 制造 商 有 
相似 的 目标 。 制 药 公司 传统 地 是 把 药物 卖 给 开 处 方 的 医生 ， 而 不 是 直接 卖 给 使 用 药物 的 人 ， 
虽然 像 Viagra 之 类 的 药物 在 市 场 上 也 有 销售 。 产 品 间接 销售 活动 的 另 -一 个 好 例子 是 个 人 计 
算 机 中 的 “内 置 英特尔 ”(Intel Inside) ， 即 必须 为 很 少 有 用 户 见 到 过 的 芯片 建立 商标 忠诚 度 
的 质量 标志 。 然 而 ， 英 特 尔 几乎 没有 关于 拥有 这 种 标识 的 笔记 本 电脑 的 人 和 公司 的 信息 。 


14.2 客户 生存 周期 


客户 容易 被 认为 是 静态 的 、 不 变 的 实体 ， 他 们 构成 了 整个 “市 场 "。 然 而 ， 这 不 正确 。 窗 
户 是 人 《或 人 的 组 织 ) ， 而 且 他 们 随时 间 变 化 。 了 解 这 些 变化 是 数据 挖掘 价值 的 一 个 重要 部 分 。 

这 些 变化 称 为 客户 生存 周期 。 事 实 上 ， 有 两 个 值得 注意 的 客户 生存 周期 ， 如 图 14-2 所 
示 。 第 一 是 生存 阶段 〈life stage)。 对 于 一 个 个 体 ， 指 的 是 生存 事件 ， 如 从 中 学 毕业 、 有 了 
小 孩 、 找 到 一 份 工作 ， 等 等 。 对 于 一 个 商业 客户 ， 生 存 周期 时 常 指 的 是 商业 的 规模 和 成 熟 
期 。 第 二 个 客户 生存 周期 是 关系 本 身 的 生存 周期 。 这 两 个 生存 周期 彼此 相互 独立 ， 两 者 对 商 
业 都 非常 重要 。 


退休 


客户 生存 周期 


(客户 的 生存 阶段 ) 
图 14-2 ”两 个 客户 生存 周期 
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14.2.1 客户 生存 周期 : 生存 阶段 


客户 的 生存 周期 由 客户 关系 之 外 的 事件 组 成 ， 表 示 个 体 客户 生命 的 里 程 碑 。 这 些 里 程 碑 
由 每 个 人 都 熟悉 的 大 大 小 小 的 事件 组 成 。 

客户 生存 阶段 的 概念 是 有 用 的 ， 因 为 人 ， 甚 至 生意 人 ， 需 要 了 解 这 些 事件 以 及 它们 如 何 
影响 个 别 的 客户 。 举 例 来 说 ， 搬 家 是 一 件 重要 的 事件 。 当 人 搬家 的 时 候 ， 时 常 购买 新 家 具 ， 
订阅 地 方 报纸 ， 新 开 一 个 银行 账户 ， 等 等 。 知 道 娜 些 人 正在 搬家 有 助 于 把 这 类 个 体 作为 目 
标 ， 尤 其 对 于 家 具 经 销 商 、 报 纸 和 银行 。 这 对 许多 其 他 的 生存 事件 也 是 适用 的 ， 从 中 学 毕业 
到 大 学 、 结 婚 、 生 孩子 、 换 工作 、 退 休 ， 等 等 。 了 解 这 些 生 存 阶段 ， 公 司 能 够 针对 特殊 群体 
设计 产品 和 消息 。 

对 于 小 生意 ， 这 不 是 问题 。 一 家 婚礼 礼服 店 专 作 结 婚礼 服 ， 对 于 它们 ， 这 样 的 业务 增 
加 ， 不 是 因为 女人 更 时 常 结婚 ， 而 是 通过 推荐 。 同 样 地 ， 搬 家 公司 不 需要 鼓励 他 们 的 最 近 客 
户 重新 迁移 ， 需 要 的 是 引进 新 的 客户 。 

另 一 方面 ， 较 大 的 公司 很 少 专门 关注 一 个 生存 阶段 。 他 们 想 要 使 用 生存 阶段 信息 发 展 产 
品 ， 而 且 增强 市 场 车 销 的 针对 性 ， 但 是 有 一 些 新 问题 。 第 一 ， 客 户 的 特定 环境 通常 在 企业 的 
数据 库 中 不 总 是 可 用 。 一 个 解决 方案 是 使 用 购买 的 信息 来 扩展 数据 库 。 当 然 ， 这 种 扩展 数据 
元 素 从 来 不 是 对 每 个 客户 都 可 用 ， 并 且 ， 即 使 这 样 的 扩展 数据 在 美国 可 用 ， 也 不 见得 对 不 同 
的 隐私 法 律 都 有 效 。 这 种 外 部 数据 资源 象征 过 去 发 生 的 事情 ， 对 当前 的 生存 阶段 只 是 一 个 推 
论 。 

甚至 当 客 户 不 提供 有 用 的 信息 时 ， 公 司 时 常会 忘记 他 。 举 例 来 说 ， 当 客户 搬家 的 时 候 ， 
会 提供 新 的 地 址 代替 旧 的 地 址 。 但 多 少 公 司 同时 保存 这 两 个 地 址 ? 并 且 这 类 公司 中 有 多 少 确 
定 客户 是 正在 上 移 还 是 下 移 ? 通过 使 用 附加 和 人口 统计 学 数据 或 人 口 普 查 数据 测量 邻近 地 区 的 
富裕 程度 ? 即使 有 的 话 ， 也 是 很 少 的 。 

同样 地 ， 许 多 女人 结婚 后 改变 名 字 ， 而 且 把 这 些 信息 提供 给 做 生意 的 公司 。 在 某 一 点 
上 ， 两 个 人 结婚 后 ， 双 方 开始 合并 财产 ， 例 如 ， 两 人 拥有 一 个 活期 存款 账户 ， 而 不 是 两 个 。 
大 多 数 公司 不 记录 客户 何 时 改变 了 名 字 ， 从 而 失去 了 提供 改变 财政 环境 的 目标 消息 的 机 会 。 

在 实践 中 ， 以 生存 阶段 为 基础 管理 客户 关系 是 困难 的 ; 

“难以 用 及 时 的 方式 识别 事件 。 

“许多 事件 是 一 次 性 的 ， 或 者 非常 稀有 。 

“生存 阶段 事件 通常 是 不 可 预知 和 难以 控制 的 。 

无 论 如 何 ， 这 些 缺 点 并 不 使 生存 阶段 没有 利用 价值 ， 因 为 生存 阶段 提供 了 关于 如 何 用 特 
别 的 信息 联络 客户 的 关键 信息 。 举 例 来 说 ， 广 告 客户 很 可 能 包含 不 同 的 信息 ， 这 依赖 媒体 的 
目标 对 象 。 然 而 ， 在 发 展 和 客户 的 长 期 关系 的 重要 性 方面 ， 我 们 想 要 问 : 是 否 有 办 法 改进 客 
户 生存 周期 的 使 用 方法 ? 


14.2.2 客户 生存 周期 


客户 生存 周期 提供 另外 的 了 解 客户 的 维度 。 这 尤其 关注 商业 关系 ， 基 于 客户 关系 随时 间 
发 展 这 一 观察 。 虽 然 每 宗 生 意 是 不 同 的 ， 但 是 客户 关系 把 客户 好 人 五 个 主要 的 阶段 ， 如 图 
14-3 所 示 : 
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。 洪 在 顾客 是 目标 市 场 中 当前 还 不 是 客户 的 人 。 
*。 响应 者 是 已 经 表现 出 一 些 兴趣 的 潜在 顾客 ， 举 例 来 说 ， 填 写 一 个 申请 表 或 者 在 网 站 上 
登记 。 
* 新 客户 是 已 经 做 出 承诺 的 响应 者 ， 通 常 是 协议 支付 ， 像 已 经 进行 第 一 次 购买 、 签 署 一 
份 合同 或 者 在 网 站 登记 了 一 些 个 人 信息 。 
。 确定 的 客户 是 那些 返回 的 新 客户 ， 对 这 些 客 户 ， 希 望 拓宽 或 者 加 深 关 系 。 
“前 客户 是 那些 离开 的 人 ， 包 括 自 发 流失 〈 因 为 他 们 已 经 投奔 一 个 竞争 者 或 者 不 再 见 到 
产品 的 价值 )、 强 制 流失 〈 因 为 没有 支付 账单 ) 或 预期 流失 〈 因 为 不 再 在 目标 市 场 中 ， 
如 已 经 搬家 ) 的 人 。 
阶段 的 精确 定义 依赖 特定 的 商业 环境 。 举 例 来 说 ， 对 于 电子 媒介 网 站 ， 潜 在 客户 可 能 是 
Web 上 的 任何 人 ; 响应 者 可 能 是 访问 过 网 站 的 人 ; 新 客户 是 已 经 注册 的 人 ; 确定 的 客户 是 
一 个 重复 的 访客 ; 前 客户 是 那些 在 很 长 一 段 时 间 没 有 返回 的 人 ， 这 个 时 间 依 赖 于 网 站 的 本 
质 。 对 其 他 的 商业 ， 这 些 定义 可 能 截然 不 同 。 举 例 来 说 ， 人 寿 保险 公司 ， 有 其 目标 市 场 ， 响 
应 者 是 那些 填写 一 个 申请 表 、 然 后 时 常 抽 血 化 验 的 人 ; 新 客户 是 那些 被 接受 的 申请 者 ; 确定 
的 客户 是 那些 为 保险 支付 保险 费 的 人 。 


前 客户 


图 14-3 ”客户 生存 周期 在 不 同 阶段 的 进展 


14.2.3 基于 订阅 关系 和 基于 事件 关系 的 比较 


客户 生存 关系 的 另 一 个 维度 是 交易 中 国有 的 承诺 。 考 虑 电话 用 户 的 下 列 方式 : 

。 从 投 币 式 公用 电话 呼叫 

“购买 一 张 数 分 钟 的 预付 电话 卡 

“。 购买 预付 费 的 移动 电话 

。 选择 一 个 长 途 电话 局 

* 购买 没有 固定 条 款 合同 的 后 付 移动 电话 

。 购 买 有 合同 的 移动 电话 

前 三 个 是 基于 事件 关系 的 例子 。 后 三 个 是 基于 订阅 关系 (subscription-based relationship ) 
的 例子 。 下 面 两 节 更 详细 地 探究 这 些 关 系 的 特性 。 

提示 : 一 个 持续 的 账单 关系 是 持续 订阅 关系 的 好 信号 。 这 种 持续 的 客户 关系 提供 在 

商业 活动 期 间 参 与 客户 对 话 的 机 会 。 

1. 基于 事件 的 关系 

基于 事件 的 关系 是 在 客户 部 分 的 一 次 性 承诺 。 客 户 可 能 返回 ， 或 者 不 返回 。 在 上 述 的 例 
子 中 ， 电 话 公司 可 能 根本 没有 关于 客户 的 信息 ， 尤 其 是 缴纳 现金 的 客户 。 这 种 砍 名 转账 仍然 
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有 信息 ; 然而 很 明显 ， 几 乎 没有 机 会 给 没有 提供 联系 信息 的 客户 提供 定向 宣传 。 

当 基 于 事件 的 关系 成 为 主流 ， 公 司 通常 通过 广泛 地 传播 消息 与 潜在 顾客 交流 (举例 来 
说 ， 在 媒体 广告 中 ， 免 费 的 固定 插页 、Web 广告 和 诸如 此 类 的 内 容 ) ， 而 不 是 针对 个 体 发 布 
消息 。 在 这 些 情 况 下 ， 分 析 工 作 针 对 产品 、 地 理学 和 时 间 ， 因 为 这 三 件 事情 通常 是 我 们 知道 
的 关于 客户 的 交易 信息 。 

当然 ,广播 广告 不 是 惟一 接触 潜在 客户 的 方法 。 通 过 邮件 或 在 Web 上 发 放 优 惠 券 是 另 
一 个 方法 。 在 美国 的 制药 公司 已 经 在 鼓励 潜在 客户 打 电 话 获得 更 多 的 信息 ， 而 公司 通过 这 一 
过 程 收 集 呼 叫 者 的 一 点 信息 。 

有 时 ， 基 于 事件 的 关系 暗示 一 个 与 中 间 人 的 商务 对 商务 的 关系 。 制 药 公 司 在 这 方面 提供 一 
个 例子 ， 因 为 许多 市 场 营销 预算 都 花费 在 医药 供应 者 身上 ， 公 司 鼓 励 他 们 开 某 些 药物 的 处 方 。 

2. 基于 订阅 的 关系 

基于 订阅 的 关系 提供 比较 自然 的 了 解 客户 的 机 会 。 在 前 面 给 出 的 列表 中 ， 后 三 个 例子 都 
有 持续 的 支付 关系 ， 其 中 客户 同意 随时 间 的 推移 支付 服务 的 费用 。 一 个 订阅 关系 提供 了 未 来 
现金 流动 (客户 未 来 的 付款 流量 ) 的 机 会 ， 以 及 与 每 个 客户 交流 的 很 多 机 会 。 

本 讨论 中 ， 基 于 订阅 的 关系 是 指 ， 按 时 间 与 客户 保持 持续 的 关系 。 这 可 能 是 支付 关系 的 
形式 ， 也 可 能 是 零售 积分 卡 或 者 在 网 站 上 注册 的 形式 。 

在 某 些 情况 下 ， 支 付 关系 是 某 种 订阅 ， 几 乎 没有 提升 销售 或 者 交叉 销售 的 余地 。 因 此 ， 
已 经 订购 一 本 杂志 的 客户 可 能 几乎 没有 扩大 关系 的 机 会 。 当 然 ， 也 有 一 些 机 会 。 订 阅 杂 志 的 
客户 可 能 购买 礼物 订阅 或 者 标 有 品牌 的 产品 。 然 而 ， 未 来 的 现金 流量 在 很 大 程度 上 由 当前 的 
产品 成 分 决定 。 

在 其 他 情况 下 ， 持 续 关系 仅仅 是 开始 。 信 用 卡 可 能 每 个 月 送 一 个 账单 ; 然而 ， 不 收费 也 
不 从 钱 。 长 途 电话 公司 每 个 月 可 能 要 向 客户 收取 费用 ， 但 是 可 能 是 月 租 费 。 目 录 公 司 给 客户 
寄 送 ， 但 是 大 部 分 客户 将 不 进行 购买 。 在 这 些 情 况 下 ， 消 费 激 励 (usage stimulation) 是 该 关 
系 的 一 个 重要 部 分 。 

。 基 于 订阅 的 关系 有 两 个 主要 的 事件 ， 即 关系 的 开始 和 结束 。 当 这 些 事件 很 明确 时 ， 生 

存 分 析 〈 见 第 12 章 ) 是 了 解 关 系 持 久 性 的 较 好 候选 者 。 然 而 ， 有 时 定义 关系 的 结束 


很 困难 。 

“。 当 客户 没有 余 款 ， 并 且 在 一 段 特 定 的 时 间 (如 3 个 月 或 6 个 月 ) 没有 转账 的 时 候 ， 信 
用 卡 关系 可 能 结束 。 

“ 当 客 户 在 一 段 特 定 的 时 间 〈 如 18 个 月 ) 没有 从 目录 购买 的 时 候 ， 一 个 目录 关系 可 能 
结束 。 


。 当 客户 在 一 段 特 定 的 时 间 (如 12 个 月 ) 没 使 用 卡 的 时 候 ， 一 个 亲 和 卡 关系 可 能 结束 。 

即使 关系 相当 容易 理解 ， 可 能 也 有 一 些 难 处 理 的 微妙 情形 。 关 系 的 结束 日 期 就 是 客户 联 
系 或 者 账户 被 关闭 的 日 期 吗 ? 应 该 认为 没有 支付 最 后 账单 的 客户 与 因为 未 付款 而 被 停止 的 客 
户 相 同 吗 ? 

这 些 情 形 应 该 作为 理解 客户 关系 的 指南 。 值 得 花 时 间 详 细 划分 客户 交互 的 不 同 阶段 。 图 
14-4 展示 了 订阅 报纸 的 客户 的 不 同 客户 经 历 。 这 些 客户 基本 上 有 以 下 类 型 的 交互 ; 

。 通 过 某 种 渠道 开始 订阅 

。 变 更 产品 〈 工 作 日 到 7 天， 周末 到 7 天 ，7 天 到 工作 日 ，7 天 到 周末 ) 
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。 延缓 递送 〈 典 型 地 是 在 假期 里 ) 


“抱怨 
“ 停止 订阅 〈 自 发 或 强制 的 ) 
在 一 个 基于 订阅 的 关系 中 ， 通 过 收集 所 有 这 些 不 同类 型 的 事件 生成 客户 关系 的 一 张 图 


片 ， 可 以 在 不 同时 期 了 解 客 户 。 


图 14-4 (简化 的 ) 订阅 报纸 的 客户 的 经 历 ， 包 含 一 些 不 同类 型 的 交互 


14.3 围绕 客户 生存 周期 组 织 商业 过 程 


客户 生存 周期 以 关系 的 长 度 和 深度 等 术语 描述 客户 。 商 业 过 程 使 客户 从 生存 周期 的 一 个 
阶段 移 到 下 一 个 阶段 ， 如 图 14-5 所 示 。 审 查 这 些 商 业 过 程 是 有 价值 的 ， 因 为 商业 的 目标 之 
一 就 是 随 着 时 间 的 过 去 ， 使 客户 变 得 更 有 价值 。 在 这 一 节 中 ， 我 们 考察 这 些 不 同 的 过 程 和 数 


据 挖 据 在 其 中 的 作用 。 


图 14-5 ”围绕 客户 生存 周期 组 织 商业 过 程 
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14.3.1 客户 获取 


客户 获取 (acquisition) 是 吸引 潜在 客户 ， 并 将 他 们 变 成 客户 的 过 程 。 通 常 通过 广告 和 
口头 消息 ， 以 及 有 目标 的 市 场 营销 来 实现 。 数 据 挖 掘 在 获取 过 程 确 实 能 够 扮演 重要 角色 。 举 
例 来 说 ， 第 5 章 有 一 个 特别 的 例子 ， 使 用 从 卡 方 获得 的 期 望 值 ， 罕 出 在 不 同 的 区 域 之 中 获取 
的 差别 。 这 种 描述 性 分 析 能 够 提出 在 不 同 地 区 传播 的 最 佳 实践 。 

关于 获取 有 三 个 重要 的 问题 ， 将 在 本 节 进 行 考察 : 谁 是 潜在 客户 ? 何 时 获取 客户 ? 数据 
控 掘 的 角色 是 什么 ? 

1. 谁 是 潜在 客户 

了 解 谁 是 潜在 客户 相当 重要 ， 因 为 宣传 应 该 针对 潜在 客户 。 从 数据 挖掘 的 观点 看 ， 挑 战 
之 一 是 当 潜在 客户 群体 改变 时 使 用 历史 数据 。 以 下 是 为 什么 探查 潜在 客户 的 时 候 要 特别 仔细 

。 地 域 扩展 带 来 的 潜在 客户 ， 可 能 与 原来 地 区 的 客户 相似 或 者 不 相似 。 

。 产品 、 服 务 和 定价 的 改变 可 能 带 来 不 同 的 目标 客户 。 

“竞争 可 能 改变 潜在 客户 组 合 。 

一 些 引 发 问题 的 情况 是 : 过 去 是 未 来 的 一 个 好 预言 者 吗 ” 在 大 多 数 情形 下 ， 回 答应 该 是 
“是 的 ”， 但 是 必须 巧妙 地 使 用 过 去 。 

下 列 故 事 是 需要 当心 的 一 个 例子 。 一 家 在 纽约 地 区 的 公司 在 曼哈顿 有 一 个 大 客户 基础 ， 
期 待 将 业务 扩大 到 市 部。 他 们 曾经 集中 在 曼哈顿 地 区 进行 直接 邮寄 营销 活动 ， 而 且 对 这 次 活 
动 的 响应 者 建造 了 一 个 模型 集 。 在 这 个 故事 中 ， 重 要 的 一 个 方面 是 曼哈顿 附近 富 人 区 的 集中 
度 很 高 ， 因 此 ， 模 型 集 偏向 富有 者 。 即 ， 响 应 者 和 非 响应 者 比 纽约 其 他 地 区 的 一 般 居民 都 更 
富有 。 

当 模 型 延伸 到 曼哈顿 以 外 的 地 区 ， 模 型 会 选取 哪些 地 区 呢 ? 它 选 取 的 是 周围 地 区 中 最 富 
有 的 少数 邻近 地 区 ， 因 为 这 些 地 区 的 响应 者 看 起 来 就 像 曼哈顿 的 历史 响应 者 一 样 。 虽 然 在 这 
些 地 区 有 好 的 潜在 顾客 ， 但 模型 遗漏 了 许多 其 他 的 潜在 客户 。 顺 便 提 一 句 ， 这 些 其 他 客户 通 
过 在 邮寄 列表 中 ， 特 别 是 来 自 周 围 地 区 的 名 字 的 随机 取样 使 用 对 照 群 组 被 发 现 。 在 对 照 群 组 
中 一 些 地 区 有 相当 高 的 响应 率 ; 尽管 是 富有 的 地 区 ， 但 是 不 像 用 来 建立 模型 的 曼哈顿 邻近 地 
区 一 样 富有 。 

警告 : 当 把 响应 模型 从 一 个 地 理 区 域 扩展 到 另外 的 区 域 时 ， 要 特别 小 心 。 结 果 告 诉 

你 的 可 能 更 多 是 有 关 相 似 的 地 理 特性 ， 而 不 是 响应 情况 。 

2. 何 时 获取 客户 

获取 客户 通常 有 一 个 潜在 的 过 程 ， 细 节 取 决 于 特定 的 行业 ， 但 是 一 般 步 又 如 下 ; 

。 客 户 在 某 一 天 以 某 种 方式 响应 。 这 是 “销售 ”日 期 。 

。 在 一 个 基于 账户 的 关系 中 ， 账 户 被 建立 。 这 是 “账户 开启 日 期 ”。 

。 账 户 以 某 种 方式 使 用 。 

有 时 ， 所 有 的 这 些 事情 同时 发 生 。 然 而 ， 总 是 有 复杂 的 因素 ， 如 不 正确 的 信用 卡号 码 、 
错误 的 拼写 地 址 、 买 主 忆 悔 ， 等 等 。 结 果 可 能 是 有 几 种 日 期 与 获取 日 期 对 应 。 

假设 所 有 的 相关 日 期 是 有 效 的 ， 使 用 哪个 最 好 ? 那 取决 于 特定 的 目的 。 举 例 来 说 ， 在 投 
放 一 个 直接 邮件 或 一 个 电子 邮件 之 后 ， 就 像 图 14-6 显示 的 一 样 ， 从 响应 曲线 获知 响应 者 何 
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时 希望 加 入 是 有 意义 的 。 对 于 这 个 目的 ， 销 售 日 期 是 最 重要 的 日 期 ， 因 为 它 表 明 客 户 行为 ， 
而 且 问题 是 有 关 客 户 行为 。 在 这 个 案例 中 ， 到 底 是 什么 使 得 开户 日 期 延迟 不 重要 。 不 同 的 问 
题 会 有 不 同 的 答案 。 举 例 来 说 ， 为 比较 不 同 组 的 响应 情况 ， 开 户 日 期 可 能 更 重要 。 登 记 了 
“销售 ”但 从 未 开户 的 潜在 客户 应 该 排除 在 分 析 之 外 。 在 目标 是 预测 将 要 开户 的 客户 数 的 应 
用 中 ， 这 也 是 正确 的 。 


10096 


响应 比例 
名 


0 7 14 .21 2835 42 49 56 63 70 7 84 9 98 105 142 119 
第 一 次 响应 之 后 的 天 数 


图 14-6 ”三 种 直接 邮寄 营销 活动 的 响应 曲线 表明 ，80% 的 响应 来 自 5 到 6 个 星期 内 


3. 数据 挖掘 的 角色 是 什么 

可 用 的 数据 限制 了 预言 性 建 模 的 角色 。 预 言 性 建 模 用 于 像 直接 邮寄 和 电话 推销 类 渠道 ， 
其 中 用 于 联络 的 花费 相对 较 高 。 目 标 是 尽 可 能 联系 更 有 可 能 响应 并 且 成 为 好 客户 的 潜在 客 
户 。 对 这 类 工作 ， 可 用 的 数据 分 为 三 类 : 

“ 潜在 客户 来 源 

“个体 /家 庭 的 附加 数据 

* 在 一 个 地 理 层 次 〈 典 型 的 户口 普查 区 或 户口 普查 区 组 ) 的 附加 的 人 口 统计 学 数据 

这 里 的 目的 是 讨论 从 数据 挖 所 的 观点 探 察 潜在 客户 。 一 个 好 的 出 发 点 是 使 用 典型 的 获取 
策略 大 网。 使 用 直接 邮寄 或 进行 电话 推销 的 公司 购买 客户 列表 。 一 些 列 表 在 历史 上 非常 好 ， 
因此 会 被 完整 应 用 。 对 于 那些 来 自 不 太 虽 贵 的 列表 的 名 字 ， 当 附加 的 人 口 统计 学 在 家 庭 层次 
是 可 用 的 时 候 ， 一 个 模型 的 集合 基于 附加 的 人 口 统计 学 ; 否则 ， 使 用 在 不 同 的 模型 集中 的 邻 
近 地 区 的 人 口 统计 学 代替 。 

定向 市 场 营销 的 挑战 之 一 是 回声 效应 ， 即 潜在 客户 通过 一 种 渠道 被 联络 上 ， 但 可 能 通过 
另 一 种 渠道 进 人 。 举 例 来 说 ， 一 家 公司 可 能 给 一 群 潜在 顾客 发 送 一 个 电子 邮件 消息 。 一 些 响 
应 者 不 是 响应 在 Web 上 的 电子 邮件 ， 而 是 可 能 打 电 话 给 呼叫 中 心 。 或 者 客户 可 能 接收 广告 
言 息 或 直接 邮寄 ， 然 而 通过 Web 网 站 响应 。 又 或 者 广告 活动 可 能 鼓励 同时 通过 一 些 不 同 的 
渠道 响应 。 图 14-7 展示 了 回声 效应 的 例子 ， 如 传人 呼叫 和 直接 邮寄 两 个 渠道 的 关联 所 示 。 
另 一 个 挑战 是 下 一 节 描 述 的 客户 激活 期 间 的 过 滤 效 应 。 

警告 : 回声 效应 可 能 不 真实 地 低估 或 者 高 估 渠 道 的 效率 ， 因 为 被 一 种 渠道 激发 的 客 

户 可 能 被 归 因 于 另外 的 渠道 。 
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对 于 这 两 种 渠道 来 说 ， 
峰值 和 低谷 大 概 同时 发 生 


新 客户 人 数 


图 14-7 ”两 个 渠道 之 间 的 关联 与 时 间 对 比 说 明 ， 一 个 渠道 可 能 泄漏 进入 另 一 个 渠道 之 内 ， 
或 者 外 部 因素 正 影 响 两 个 渠道 


14.3.2 客户 激活 


一 旦 潜在 客户 表现 出 兴趣 ， 就 有 某 种 激活 (activation) 过 程 。 这 可 能 像 客户 在 一 个 网 站 上 
填写 一 个 登记 表 一 样 简 单 。 或 者 ， 可 能 包括 更 长 的 审批 过 程 ， 像 核对 信用 。 或 者 ， 可 能 更 麻烦 
些 ， 如 在 人 寿 保 险 公 司 的 例子 中 ， 时 常 需要 进行 一 项 保险 业务 测试 ， 包括 可 能 在 设 定 等 级 之 前 
抽取 血液 样本 。 大 体 上 ， 激 活 是 一 个 操作 过 程 ， 更 多 关注 的 是 商业 需求 ， 而 不 是 分 析 需 求 。 

作为 一 个 操作 过 程 ， 客 户 激活 可 能 看 似 与 数据 控 气 关系 不 大 。 但 是 ， 有 两 个 非常 重要 的 
相互 作用 。 第 一 是 ， 激 活 新 客户 提供 了 客户 在 加 入 时 的 瞬间 状况 。 这 是 对 客户 非常 重要 的 观 
察 ， 而 且 作 为 一 个 数据 来 源 ， 也 需要 保存 。 初 始 条 件 和 后 来 的 变化 都 重要 。 

提示 : 客户 激活 提供 客户 关系 的 初始 条 件 。 这 种 初始 条 件 通常 是 长 期 客户 行为 的 有 

用 预报 器 (predictor) 。 

激活 也 是 重要 的 ， 因 为 它 缩小 并 精 选 客户 基 。 这 是 一 个 过 滤 效 应 ， 如 图 14-8 所 示 。 这 
个 过 程 是 针对 类 似 报 纸 订 阅 等 过 程 的 一 个 常见 过 程 。 基 本 上 有 下 列 步 双 : 


为 浴 
居 郡 冯 辐 
新 销售 来 自 多 种 渠道 人 
着 营 1 有 二 访 。 机 
只 有 具有 确认 地 址 和 
信用卡 的 销售 成 为 订单 
只 具有 地 址 的 订单 变 成 订阅 


只 有 一 些 订阅 被 支付 


支付 的 订阅 


图 14-8 客户 激活 过 程 漏斗 削减 激活 过 程 每 一 步 的 响应 者 
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销售 : 洪 在 客户 表示 对 订阅 感 兴趣 ， 通 过 Web、 电 话 或 投递 的 响应 卡 提供 地 址 和 付款 
言 息 。 
订单 ; 建立 一 个 账户 ， 包 含 关于 地 址 和 付款 信息 的 初步 确认 。 

订阅 : 实际 递送 报纸 ， 需 要 进一步 确认 地 址 和 特别 的 递送 指令 。 

已 支付 的 订阅 : 客户 为 报纸 付款 。 

这 些 步 双 的 每 一 步 都 失去 一 些 客户 ， 也 许 只 有 百 分 之 几 或 者 更 多 。 举 例 来 说 ， 信 用 卡 可 
能 无 效 ， 有 效 期 不 正确 ， 或 者 与 递送 地 址 不 符 。 客 户 可 能 居住 在 递送 区 域 之 外 。 递 送 者 可 能 
不 理解 特别 的 递送 指令 。 地 址 可 能 是 在 一 栋 不 允许 进入 的 公寓 大 楼 内 ， 或 者 客户 根本 不 支 
付 。 这 些 当 中 的 大 部 分 都 是 操作 因素 (客户 是 否 支付 是 例外 )， 也 说 明 与 客户 激活 有 关 的 操 
作 关 注 点 和 过 程 。 

当 客 户 在 这 个 过 程 中 没有 以 应 有 的 方式 移动 的 时 候 ， 数 据 挖 据 能 找到 原因 ， 并 了 解 在 激 
活期 间 是 什么 特征 导致 客户 激活 失败 。 这 些 结果 最 大 程度 地 用 来 改良 操作 过 程 ， 通 过 强调 那 
些 能 够 带 来 没有 转变 为 支付 订阅 的 销售 的 策略 ， 这 些 结果 也 提供 获取 期 间 的 指导 。 

对 基于 Web 的 商业 ， 客 户 激活 通常 是 几乎 不 需要 时 间 的 自动 过 程 ， 虽 然 不 总 是 这 样 。 
当 它 很 好 地 起 作用 的 时 候 ， 没 有 任何 问题 。 尽 管 需要 花费 一 点 时 间 ， 但 却 是 客户 获取 过 程 的 
必需 部 分 。 当 它 失 败 的 时 候 ， 会 导致 潜在 的 有 价值 客户 离开 。 


14.3.3 关系 管理 


一 旦 潜在 客户 变 成 客户 ， 工 作 目 标 是 增加 客户 的 价值 。 通 常 需要 下 列 活动 : 

“提升 销售 。 让 客户 购买 高 级 的 产品 和 服务 。 

。 交叉 销售 。 扩 大 客户 关系 ， 如 让 客户 购买 除了 书 之 外 的 CD、 机 票 和 汽车 等 。 

“刺激 消费 。 确 保 客户 多 次 回头 ， 举 例 来 说 ， 通 过 确保 客户 看 到 较 多 的 广告 ， 或 使 用 信 

用 卡 购买 更 多 的 东西 。 

这 三 个 活动 都 是 数据 挖掘 所 能 处 理 的 ， 尤 其 是 预言 性 建 模 ， 它 能 够 确定 对 于 哪些 宣传 ， 
哪些 客户 是 最 好 的 目标 。 这 种 类 型 的 预言 性 建 模 时 常 确定 客户 行动 的 方向 ， 如 第 3 章 所 述 。 
然而 ， 为 客户 提供 适当 的 营销 信息 ， 而 不 会 给 他 们 太 多 无 用 的 信息 ， 是 一 项 具有 挑战 性 的 
工作 。 

电话 呼叫 和 邮件 投递 是 令 人 烦恼 的 ， 不 需要 的 电子 邮件 消息 (时 常 被 称 为 垃圾 邮件 ) 在 
客户 关系 方面 一 般 具 有 更 消极 的 效应 。 一 个 理由 可 能 是 ， 客 户 时 常 为 电子 邮件 支付 因特网 连 
接 或 磁盘 空间 费用 。 另 一 个 理由 也 许 是 邮件 可 能 在 上 班 时 候 到 达 ， 而 不 是 在 家 的 时 候 到 达 ， 
那么 就 有 包含 烦人 的 弹出 广告 的 垃圾 邮件 问题 。 当 然 ， 这 样 的 电子 邮件 时 常 是 主动 提供 的 ， 
使 那些 不 想 收 到 诸如 赌博 诱惑 、 洗 钱 、 威 而 刚 (Viagra)、 性 网 站 、 债 务 还 原 反 应 、 非 法 传 
销 模式 等 信息 的 人 不 愉快 。 

因为 电子 邮件 时 常 被 滥用 ， 即 使 是 公司 与 客户 之 间 的 正常 业务 沟通 也 有 可 能 与 那些 可 疑 
的 消息 被 同等 对 待 。 这 是 一 种 危险 ， 而 且 事 实 上 暗示 客户 联系 需要 比 电子 邮件 更 宽 的 渠道 。 

提供 许多 产品 和 服务 的 公司 所 面临 的 另 一 种 危险 是 传播 正确 的 宣传 信息 。 客 户 未 必 想 要 
选择 ; 客户 只 是 需要 你 提供 他 们 想 要 的 。 让 客户 在 一 大 堆 市 场 营 销 信 息 中 寻找 自己 感 兴趣 的 
东西 ， 不 是 营销 宣传 的 好 方法 。 因 此 ， 有 效 的 方法 是 对 每 位 客户 集中 发 送 少量 他 们 可 能 感 兴 
趣 的 产品 宣传 。 当 然 ， 每 位 客户 有 不 同 的 潜在 需求 集合 。 在 发 现 这 些 关 联 方面 ， 数 据 挖掘 起 
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着 很 关键 的 作用 。 
14.3.4 保持 


客户 保持 是 预言 性 建 模 应 用 最 多 的 领域 之 一 。 考 察 客户 保持 有 两 个 方法 。 第 一 是 在 第 
12 章 中 描述 的 尝试 了 解 客 户 保有 期 的 生存 分 析 。 生 存 分 析 给 某 一 段 时间 之 后 可 能 离开 的 客 
户 分 配 一 个 概率 。 


流失 预测 引擎 
预测 客户 停止 和 客户 层次 在 商业 领域 起 着 非常 重要 的 作用 ， 特别 是 对 未 来 预算 规划 和 市 
场 营销 工作 。 预 测 提供 一 个 期 望 值 (或 一 组 期 望 值 )， 用 于 比较 实际 发 生 的 事情 和 期 望 的 事 
情 。 这 是 数据 挖掘 ， 特 别 是 生存 分 析 的 自然 应 用 。 
下 列 特 征 展示 了 预测 引擎 的 外 表 特 征 。 


进行 现存 基 预 测 


进行 新 客户 预测 


进行 新 客户 
流失 预测 


新 客户 预测 


现存 客户 基 预 测 


进行 现存 基 
流失 预测 


预测 引擎 使 用 数据 挖掘 预 测 客户 层次 〈《 和 流失 )， 同 时 以 背离 期 望 值 的 方式 提供 解释 


五 个 重要 的 输入 : 

有 效 日 期 ”该 日 期 之 前 的 所 有 数字 是 真实 的 ; 而 该 日 期 之 后 的 所 有 数字 就 是 预测 。 
预测 维度 ”是 诸如 产品 、 地 域 分 布 和 用 于 发 展 预测 的 渠道 等 客户 属性 。 

新 客户 ”是 在 有 效 日 期 之 后 被 预测 维度 分 解 的 新 客户 列表 。 

活跃 的 客户 ”是 在 有 效 日 期 之 前 活跃 的 所 有 客户 列表 ， 包 括 每 个 客户 的 预测 维度 。 
实际 流失 ”是 分 裂 成 预测 维度 的 实际 的 停止 ， 用 于 比较 以 解 杰 原 因 。 当 预测 正在 进行 
这 是 不 可 用 的 ， 但 是 以 后 就 可 以 用 了 。 

然后 预测 被 分 解 为 下 列 一 些 块 。 现 存 基 预测 (The existing base forecast，EBF) 决定 每 
个 活跃 的 客户 在 未 来 某 个 给 定 日 期 保持 活跃 的 概率 ， 预 测 直 接 使 用 生存 分 析 。 新 客户 预测 


时 


中 
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(new start forecast，NSF) 决定 新 客户 对 未 来 基 的 贡献 ， 即 这 些 是 在 将 来 仍然 活跃 的 新 客 
户 。 这 是 另 一 种 生存 分 析 的 直接 应 用 ， 因 为 每 天 都 有 新 客户 启动 : NSF (1) = One Day Sur- 
vival of NSF (一 1) +New Starts (z)。 

流失 预测 可 以 容易 地 从 EBF 和 NSEF 获得 。 现 存 基 流 失 预 测 (EBCF) 是 未 来 在 现存 基 
的 一 个 附着 块 上 的 流失 数目 ， 是 生存 分 析 在 连续 两 天 的 关 : EBCF (z) =EBF (+) -EBF 
(t+1)。 新 客户 流失 预测 (NSCF) 是 未 来 某 一 天 新 客户 的 流失 数目 。 计 算 稍 微 有 点 技巧 ， 
因为 必须 考虑 新 客户 : NSCF (!) =NSF (: 一 1) -OneDaySurvivalofNSF (z -1)。 流 失 预 
测 是 这 些 数目 的 总 和 ，CEF (z) =EBCF (上 ) +NSCF (zt)。 

预测 的 所 有 块 都 典型 地 使 用 预测 维度 。 结 果 是 预测 能 与 真实 值 比较 ， 能 够 用 可 理解 的 和 
对 商业 有 益 的 术语 解释 结果 。 

生存 分 析 的 功能 在 于 它 关 注 的 时 常 是 保持 (客户 保有 期 ) 的 最 重要 决定 因素 。 通 常 ， 已 
经 保有 一 段 时 间 的 客户 更 可 能 停留 更 长 的 一 段 时 间 。 然 而 ， 通 过 对 几 种 基本 技术 的 加 强 ， 生 
存 分 析 也 能 考虑 其 他 一 些 因素 。 当 有 许多 数据 的 时 候 ， 使 用 分 层 过 程 可 以 独立 考察 不 同 的 因 
素 。 当 有 许多 其 他 因素 的 时 候 ， 参 数 建 模 和 比例 风险 (proportional hazard) 建 模 提 供 类 似 的 
能 力 〈 本 书 不 详细 讨论 这 些 )。 在 任何 情况 下 ， 都 有 可 能 得 到 客户 的 剩余 保有 期 。 这 不 仅 对 
保持 干预 有 用 ， 而 且 对 客户 生存 值 计算 和 预测 客户 的 数量 有 用 ， 如 上 面 “ 流 失 预 测 引擎 ”部 
分 所 述 。 

必 一 种 方法 是 预测 谁 在 未 来 的 很 得 时 间 内 会 离开 。 这 在 很 大 程度 上 是 一 个 传统 的 预言 性 
建 模 问题 ， 即 从 过 去 相似 的 数据 中 寻找 模式 。 这 个 方法 对 集中 的 市 场 营销 干预 是 有 用 的 。 知 
道 哪些 人 在 不 久 的 将 来 会 离开 ， 因 此 使 营销 活动 更 集中 ， 投 入 更 多 资金 挽回 每 位 客户 。 


14.3.5 赢 回 


一 旦 客户 已 经 离开 ， 仍 然 有 可 能 吸引 他 们 回来 。 赢 回 通 过 提供 激励 、 产 品 和 价格 奖励 ， 
设法 拉 回 有 价值 的 客户 。 

赢 回 倾向 于 更 多 地 依赖 操作 策略 ， 而 不 是 数据 分 析 。 有 时 有 可 能 决定 客户 为 什么 离开 。 
然而 ， 赢 回 策略 需要 作为 保持 工作 本 身 的 一 部 分 开始 。 举 例 来 说 ， 一 些 公司 特别 成 立 了 “ 扣 
救 梯 队 "。 客 户 没 有 和 一 位 专门 为 保有 他 们 而 训练 的 人 交流 之 前 不 能 离开 。 除 了 挽救 客户 之 
外 ， 挽 救 梯队 也 很 好 地 追踪 客户 离开 的 理由 一 一 可 能 是 对 将 来 保持 客户 的 工作 非常 有 价值 的 
信息 。 

数据 分 析 有 时 能 够 帮助 确定 客户 为 什么 离开 ， 特 别 是 当 客户 抱怨 能 与 操作 数据 结合 的 时 
候 。 然 而 ， 设 法 吸引 不 满意 的 客户 回头 相当 艰难 。 更 重要 的 工作 是 设法 用 具有 竞争 力 的 产 
铝 、 有 吸引 力 的 报价 和 服务 ， 使 他 们 保持 第 一 位 置 。 


14.4 小 结 


在 所 有 的 形式 中 ， 客 户 对 商业 成 功 至 关 重 要 。 一 些 客户 大 而 且 非 常 重要 ; 这 些 客户 值得 
特殊 对 待 。 其 他 的 客户 很 小 ， 而 且 非 常 多 。 这 是 数据 挖掘 的 重点 对 象 ， 因 为 始终 与 每 个 人 保 
持 个 人 关系 代价 太 高 ， 数 据 挖掘 能 帮助 提供 大 众 亲 密 。 一 些 客户 介 于 二 者 之 间 ， 需 要 在 这 些 
方法 之 间 取 一 个 平衡 。 

基于 订阅 的 关系 一 般 是 客户 关系 的 一 个 好 模型 ， 因 为 这 种 关系 有 一 个 明确 的 开始 和 结 
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东 。 每 位 客户 有 自己 的 生存 周期 ; 婚姻 、 毕 业 、 生 孩子 、 搬 家 、 换 工作 ， 等 等 。 这 些 对 市 场 
营销 是 有 用 的 ， 但 是 问题 是 ， 事 情 发 生 的 时 候 ， 公 司 却 不 知道 。 

相反 ， 客 户 生存 周期 从 商业 关系 的 角度 看 待 客户 。 首 先是 潜在 客户 ， 被 激活 会 成 为 新 客 
户 。 新 客户 提供 了 提升 销售 、 交 叉 销售 和 刺激 消费 的 机 会 。 最 后 所 有 的 客户 离开 ， 使 得 保持 
成 为 对 营销 和 预测 都 很 重要 的 一 个 数据 控 气 应用。 一旦 客户 离开 ， 他 们 可 能 通过 赢 回 策略 被 
挽回 。 数 据 挖掘 能 提高 所 有 的 这 些 商业 机 会 。 

因为 世界 更 多 的 是 被 技术 驱动 ， 越 来 越 多 的 数据 可 用 ， 特 别 是 关于 客户 行为 。 数 据 挖掘 
意 在 使 用 所 有 这 些 数据 获 益 ， 通 过 汇总 数据 并 在 大 数据 集 上 应 用 算法 产生 意义 深长 的 结果 。 

然而 ， 在 所 有 这 些 技术 之 中 ， 客 户 关 系 仍然 维持 它 的 中 央 位 置 。 毕 竟 ， 因 为 是 由 客户 提 
供 收益 ， 客 户 是 商业 每 年 保持 成 功 的 惟一 秘诀 。 最 后 ， 其 他 的 资金 枯竭 。 没 有 计算 机 曾经 从 
Amazon 进行 购买 ; 没有 软件 曾经 在 sBay 上 支付 一 个 Pez 药剂 师 的 费用 ; 没有 移动 电话 曾经 
预订 航班 或 饭店 。 总 是 有 人 在 另 一 端 ， 不 管 是 个 人 还 是 集体 。 
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自从 20 世纪 60 年 代 将 计算 机 引入 数据 处 理 中 心 以 来 ， 商 务 活动 中 的 几乎 每 个 操作 系统 都 被 
计算 机 化 。 这 些 自动 化 系统 管理 公司 ， 以 自动 化 方式 源源 不 断 地 提供 大 量 数据 。 自 动 化 改变 了 人 
们 交易 的 方式 和 生活 方式 ，AIM (Automated Teler Machine， 自 动 柜员 机 )、 可 调节 抵押 利率 、 即 
时 库存 控制 、 在 线 零售 、 信 用 卡 、Google、24 小 时 递送 、 飞 行 采购 社团 等 就 是 一 些 基 于 计算 机 自 
动 控制 开拓 新 市 场 和 改革 现 有 市 场 的 实例 ， 这 并 非 是 一 个 新 事物 ， 它 已 经 持续 了 几 十 年 。 

在 一 个 典型 的 公司 中 ， 分 布 有 许多 各 异 的 系统 ， 从 普通 的 分 类 账号 到 自动 销售 系统 ， 从 库存 
控制 到 电子 数据 交换 (EDD 等 ， 这 些 散 布 的 系统 创建 了 大 量 数据 。 关 于 交易 活动 的 特定 部 分 的 
数据 就 存在 于 其 中 一 一 在 某 些 地 方 ， 以 某 种 形式 存在 。 数 据 是 可 用 的 ， 但 没有 信息 一 一 即 没有 在 
某 个 确切 时 间 的 准确 信息 。 数 据 仓库 的 目的 是 在 确切 时 间 提 供 确切 的 可 利用 的 信息 。 数 据 仓库 就 
是 以 决策 支持 为 目的 ， 将 贯穿 整个 组 织 结构 的 完全 不 同 的 数据 集合 到 一 起 的 处 理 过 程 。 

数据 仓库 的 作用 是 作为 记录 的 决策 支持 (decision-support) 系统 ， 使 得 报告 相互 一 致 成 
为 可 能 ， 因 为 它们 有 相同 的 潜在 的 来 源 。 这 样 的 系统 不 但 减少 了 对 全 异 结 果 解 释 的 需要 ， 而 
且 在 商业 企业 和 时 间 上 提供 一 致 的 商务 观点 。 我 们 相信 ， 随 着 时 间 的 推移 ， 英 明 的 决策 会 得 
到 超越 时 间 的 更 好 的 底线 结果 ， 而 且 数 据 仓 库 帮 助 管理 者 做 出 明智 的 决策 。 正 如 这 里 所 用 到 
的 ， 决 策 支 持 是 一 种 有 意识 的 模糊 概念 ， 它 可 以 是 非常 基本 的 数据 ， 就 像 每 周 给 予 一 线 管 理 
者 的 产品 报告 ; 也 可 以 是 很 复杂 的 ， 像 对 潜在 客户 的 深奥 建 模 ， 使 用 神经 网 络 去 确定 提供 哪 
些 信息 ; 它 也 可 能 (往往 是 ) 正好 处 于 上 述 两 种 情况 之 间 。 

数据 仓库 与 数据 控 据 经 常 是 相互 关联 的 ， 数 据 挖掘 侧 重 于 在 数据 中 发 现 可 操作 的 
(actionable) 模 式 ， 因 此 对 干净 和 一 致 的 数据 有 严格 的 要 求 。 在 数据 控 握 背后 所 做 的 大 量 工 作 
往往 是 识别 、 获 取 及 清理 数据 ， 设 计 良 好 的 公司 数据 仓库 是 一 个 很 有 价值 的 前 提 条 件 。 更 理 
想 的 是 ， 如 果 数 据 仓 库 设 计 中 包含 对 数据 挖掘 应 用 的 支持 ， 那 么 这 个 仓库 可 以 推动 和 促进 数 
据 挖掘 工作 。 同 时 运用 这 两 种 技术 是 很 有 价值 的 。 通 过 把 一 个 干净 和 一 致 的 不 活动 数据 源 转 
换 为 可 操作 信息 ， 数 据 挖 掘 完成 了 数据 仓库 应 该 完成 的 一 些 工作 。 

对 于 这 种 关系 ， 同 样 有 一 些 技 术 成 份 要 求 。 由 于 用 户 同 时 运行 多 项 工作 的 能 力 有 限 ， 同 
时 ， 许 多 软件 ， 包 括 数据 挖 气 和 统计 学 软件 ， 并 没有 充分 利用 最 快速 的 服务 器 上 的 多 处 理 器 和 
多 个 硬盘 的 资源 优势 ， 使 得 数据 仓库 与 数据 挖掘 不 能 很 好 地 协同 工作 。 关 系数 据 库 管理 系统 
(relational database management systems，RDBMS) 是 许多 数据 仓库 的 核心 ， 是 并 行 处 理 的 ， 可 以 
充分 利用 整个 系统 的 资源 处 理 单一 查询 。 更 重要 的 是 ， 用 户 可 能 不 会 注意 到 这 个 RDBMS， 因 
为 它 的 界面 没有 改变 ， 是 SQL 的 一 些 变形 。 一 个 运行 在 强大 的 服务 器 上 的 数据 库 ， 可 以 成 为 
处 理 大 量 数据 的 强 有 力 的 宝贵 资源 ， 这 种 情况 就 像 是 在 客户 层 上 汇总 交易 的 行为 。 

数据 仓库 是 非常 有 用 ， 但 这 种 系统 对 于 数据 挖掘 和 数据 分 析 不 是 必 备 条 件 。 统 计 员 、 保 
险 精算 师 和 分 析 师 已 经 使 用 统计 软件 包 几 十 年 时 间 一 一 利用 它们 可 以 得 到 很 好 的 结果 一 一 他 
们 并 没有 利用 设计 良好 的 中 心 仓库 。 然 而 ， 由 于 需要 一 致 、 准 确 和 及 时 的 数据 来 支持 商业 企 
业 的 需要 ， 数 据 仓 库 对 任何 决策 支持 或 信息 分 析 变 得 日 益 重 要 。 

本 章 的 重点 内 容 是 ， 把 数据 仓库 作为 数据 挖掘 良 性 循环 (〈virtuous cycle) 的 一 部 分 ， 把 
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它 作为 支持 该 循环 的 所 有 四 个 阶段 的 有 价值 的 重要 组 成 部 分 : 识别 机 会 、 分 析 数 据 、 应 用 信 
息 及 测量 结果 。 本 章 的 主旨 不 是 指导 你 如 何 创建 仓库 一 -有 很 多 书籍 专注 于 这 个 主题 ， 这 里 
真诚 地 推荐 Ralph Kimba 的 The Data Warehoxse TooRi ， (Wiley，2002) 和 Bill Inmon 的 
Build zhe Daia Warehouse (Wiley,，2002) (中 文 版 《数据 仓库 》 已 由 机 械 工业 出 版 社 出 版 )。 

本 章 首先 讨论 可 用 的 不 同 数据 类 型 ， 然 后 讨论 数据 挖掘 对 数据 仓库 的 要 求 ， 接 着 展示 了 
一 种 典型 的 数据 仓库 结构 及 一 些 变 体 。 然 后 转向 在 线 分 析 处 理 (OLAP)， 这 是 另外 一 种 规 
范 化 数据 仓库 的 途径 。 最 后 讨论 了 数据 挖掘 在 这 些 环境 中 扮演 的 角色 。 不 过 ， 像 大 多 数据 控 
掘 相 关 环 境 一 样 ， 我 们 首先 还 是 从 数据 开始 。 


15.1 数据 结构 


在 计算 机 上 存在 许多 不 同 特色 的 信息 ， 不 同 层 的 数据 代表 不 同 的 抽象 类 型 ， 如 图 15-1 所 示 。 
。 交 易 数据 

。 运 行 累 加 数据 

。 决 策 支持 累加 数据 

。 模 式 

。 元 数据 

。 商业 规则 


从 数据 中 得 到 了 什么 


到 物理 布局 和 资源 
的 逻辑 模型 和 映射 


抽象 层 “一 一 一 二 


数据 、 表 、 字 段 、 索 引 、 
类 型 的 物理 布局 


通过 谁 、 什 么 、 哪 里 、 
何 时 进行 汇总 


谁 、 什 么 、 哪 里 、 何 时 


数据 规模 一 一 一 亿 


图 15-1 数据 分 层 及 其 描述 帮助 用 户 围绕 数据 仓库 操纵 数据 。 通 常数 据 越 抽象 ， 数 据 量 越 少 


抽象 层 是 数据 挖掘 所 用 数据 的 一 个 重要 特征 。 在 设计 良好 的 系统 中 ， 应 该 可 以 通过 穿越 
这 些 不 同 的 抽象 层 来 获取 基本 数据 以 支持 汇总 或 商业 规则 。 金 字 塔 的 较 低层 的 数据 量 更 大 ， 
往往 是 数据 库 的 素材 资料 ; 较 高 层 则 数据 量 较 少 ， 往 往 是 计算 机 程序 的 内 容 。 所 有 这 些 层 都 
很 重要 ， 因 为 我 们 不 希望 通过 分 析 详尽 的 数据 而 仅仅 产生 可 能 已 经 知道 的 某 些 事实 。 


15.1.1 交易 数据 一 一 基础 层 


客户 购买 的 每 一 种 产品 、 每 一 次 银行 交易 、 每 一 次 Web 页 访问 、 每 一 张 信 用 卡 的 购买 、 每 一 
个 飞行 航 段 、 每 一 个 包 庄 、 每 一 次 电话 呼叫 ， 在 某 些 操作 系统 中 都 被 记录 下 来 。 每 一 次 ， 新 开设 
账号 或 支付 账单 ， 在 某 个 地 方 就 应 该 有 一 条 交易 记录 ， 记 录 了 关于 谁 、 什 么 事情 、 什 么 地 点 、 什 么 
时 间 及 花费 多 少 等 信息 。 这 种 交易 层 的 数据 是 了 解 客 户 行为 的 原始 材料 ， 它 是 企业 的 眼睛 和 耳 东 。 
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不 幸 的 是 ， 随 着 时 间 的 推移 ， 因 为 商业 变化 的 需求 ， 操 作 系统 发 生 了 变化 ， 字 段 可 能 会 
随时 间 改 变 其 含意 ， 这 些 重要 数据 只 不 过 被 复制 和 删除 。 对 应 于 新 产品 的 引入 、 顾 客 数目 的 
增加 、 数 据 采 集 、 公 司 重组 及 新 技术 采用 等 各 种 原因 ， 这 种 改变 时 常会 发 生 。 考 虑 数据 随时 
间 变 化 这 个 事实 必须 是 任何 强 有 力 的 数据 仓库 方法 的 一 部 分 。 

提示 : 数据 仓库 需要 存储 数据 ， 以 保证 信息 经 历时 间 的 推移 仍然 是 一 致 的 ， 即 使 在 

生产 线 发 生变 化 、 市 场 发 生变 化 、 客 户 片 段 发 生变 化 、 商 业 机 构 发 生变 化 的 时 候 也 

应 该 这 样 。 否 则 ， 数 据 挖 气 很 有 可 能 得 到 的 是 反映 这 些 变化 的 模式 ， 而 不 是 潜在 的 

客户 行为 。 

从 交易 系统 收集 的 数据 量 可 能 是 巨大 的 ， 一 家 快餐 店 在 一 年 时 间 内 会 卖 出 成 百 上 千 份 快 
餐 ; 一 家 连锁 超市 一 天 可 能 会 有 数 万 或 数 十 万 次 交易 ; 一 家 大 银行 一 天 处 理 数 百 万 张 支票 和 
信用 卡 交 易 ; 一 个 大 的 Web 站 点 每 天 有 数 百 万 次 点 击 (在 2003 年 ，Google 每 天 就 处 理 
250 000 000 次 搜索 ); 一 个 电话 公司 每 天 有 数 千 万 甚至 上 亿 次 呼叫 ;一 个 大 的 广告 服务 器 在 
Web 上 每 天 追踪 超过 十 亿 的 广告 浏览 。 即 使 磁盘 价格 已 经 下 降 ， 存 储 所 有 这 些 交 易 信 息 也 
还 是 需要 巨额 投资 的 。 作 为 参考 ， 记 住 一 天 有 86 400 秒 是 有 意义 的 ， 因 为 一 天 100 万 次 交 
易 实 际 等 于 平均 每 秒 12 次 交易 (25S0 000 000 次 搜索 几乎 相当 于 每 秒 3 000 次 搜索 !) 一 一 高 
峰 时 期 的 数值 还 会 更 高 几 倍 。 

正 是 因为 如 此 大 的 数据 量 ， 人 们 通常 不 愿意 在 数据 仓库 中 存储 交易 层 数 据 。 从 数据 挖掘 
的 角度 看 ， 这 是 很 遗憾 的 ， 因 为 这 些 交 易 是 客户 行为 的 最 佳 描述 。 


15.1.2 操作 汇总 数据 


操作 汇总 与 交易 作用 相同 ， 其 差别 是 数据 汇总 来 源 于 交易 。 最 普通 的 例子 是 账单 处 理 系 
统 ， 它 汇总 交易 数据 ， 通 常 以 每 月 或 每 四 周 为 一 个 周期 。 这 些 汇总 是 面向 客户 的 且 常 常 导致 
其 他 交易 ， 如 账单 支付 。 在 某 些 情况 下 ， 操 作 汇 总 可 能 包括 一 些 字 段 汇 总 ， 这 些 字段 汇总 是 
为 了 强化 公司 对 客户 的 了 解 ， 而 不 是 为 操作 目的 。 比 如 ， 第 4 章 描述 了 AT&T 如 何 使 用 呼 
叫 明 细 记 录 计 算 “bizocity” 得 分 ， 用 于 表明 一 个 电话 号 码 出 现 什 么 样 的 呼叫 模式 时 会 是 类 
似 商务 的 电话 ， 每 次 的 呼叫 记录 被 竺 弃 ， 但 得 分 被 更 新 。 

操作 汇总 数据 与 交易 数据 是 有 区 别 的 ， 因 为 汇总 是 对 应 于 一 个 时 间 段 ， 而 交易 代表 每 次 
ee 
汇总 ， 有 一 个 付款 历史 记录 表 来 提供 每 笔 付 款 交易 明细 。 对 于 大 多 数 客户 来 说 ， 按 月 汇总 和 
付款 交易 非常 相似 ， 但 在 同一 个 账单 周期 内 可 能 出 现 两 笔 付 款 ， 因 而 更 多 的 付款 明细 信息 可 
能 对 客户 付款 模式 提供 有 用 的 深入 了 解 。 


15.1.3 决策 支持 汇总 数据 


决策 支持 汇总 数据 是 辅助 商业 决策 的 数据 。 公 司 的 财务 数据 提供 了 一 个 决策 支持 汇总 数据 的 
实例 ， 这 通常 被 认为 是 决策 过 程 中 最 清洁 的 数据 。 另 一 个 例子 是 数据 仓库 和 数据 集 市， 其 目的 是 
在 客户 层次 上 提供 记录 的 决策 支持 系统 。 维 护 决策 支持 汇总 数据 就 是 数据 仓库 的 目的 。 

通常 来 说 ， 把 同一 个 系统 同时 用 于 分 析 和 操作 目的 并 不 是 一 个 好 主意 ， 因 为 操作 目的 需 
要 优先 考虑 ， 这 样 会 产生 一 个 对 于 操作 最 优化 的 系统 ， 这 种 最 优化 不 是 针对 决策 支持 目的 
的 。 财 务 系 统一 般 不 是 为 了 解 客户 过 程 设 计 的 ， 因 为 它们 的 设计 目的 是 清算 账号 。 把 客户 汇 
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总 完全 结算 到 分 类 账号 是 非常 复杂 的 ， 而 且 通 常 没有 必要 这 样 做 。 数 据 仓库 的 目标 之 一 是 提 
供 一 致 的 定义 和 布局 ， 以 便 相 似 报告 产生 相似 的 结果 ， 无 论 它们 是 哪个 商务 用 户 生 成 的 或 者 
在 什么 时 间 生 成 的 。 本 章 主 要 关心 的 是 这 个 抽象 层 。 

从 某 种 意义 上 说 ， 汇 总 看 似 破坏 了 信息 ， 因 为 它们 对 事情 进行 聚集 。 由 于 这 个 原因 ， 不 
同 的 汇总 用 于 不 同 的 目的 。 销 售 点 交易 可 以 捕获 走 过 扫 描 器 的 每 一 瓶 沙 丁 鱼 饶 头 信息 ， 但 只 
有 汇总 结果 ， 才 能 用 客户 在 一 天 中 的 习惯 购物 时 间 段 以 及 她 花 在 负 装 食品 部 的 钱 的 比例 来 描 
述 其 购买 行为 。 在 这 种 情况 下 ， 客 户 数据 汇总 看 似 在 创建 信息 。 

获 告 : 不 要 期 望 客户 层 次 的 数据 仓库 信息 完全 与 财务 系统 数据 平衡 〈 尽 管 这 两 个 系 

统 给 出 的 结果 可 能 很 相近 )。 虽 然 理 论 上 有 可 能 ， 但 这 种 平衡 被 证 明 是 很 困难 的 ， 

往往 会 使 人 对 数据 仓库 的 目的 产生 别 的 分 歧 。 


15.1.4 数据 库 模 式 


迄今 为 止 的 讨论 都 是 关于 数据 的 。 实 际 上 ， 数 据 的 结构 也 同样 重要 一 一 比如 什么 数据 被 
存储 、 它 被 存储 在 哪里 、 什 么 数据 不 被 存储 等 。 后 面 “ 什 么 是 关系 数据 库 ?” 部 分 解释 了 这 
些 关 系数 据 库 中 的 主要 概念 ， 关 系数 据 库 是 存储 大 量 数据 最 常用 的 系统 。 

不 管 数据 是 如 何 存储 的 ， 区 分 描述 存储 的 两 种 方式 都 是 重要 的 。 物 理 模式 从 基本 软件 需 
要 的 技术 细节 上 描述 它 的 布局 ， 一 个 例子 就 是 SQL 中 由 “CREATE TABLE” 产 生 的 财务 报 
告 书 ; 与 之 相对 的 是 ， 远 辑 模式 以 一 种 最 终 用 户 更 易 接受 的 方式 描述 该 数据 。 这 两 种 方法 不 
必 相 同 ， 甚 至 不 必 相 似 ， 如 图 1S-2 所 示 。 

逻辑 模型 这 个 逻辑 模型 有 四 个 实体 ， 三 个 是 客户 
COMPLNNT 生成 的 事件 ， 一 个 是 关于 账号 。 
ACCT_JD 


COMPLAINT_CODE 
REFUND_AMOUNT 


这 个 逻辑 模型 的 意图 是 让 商业 用 户 理解 。 


ACCT 
FIRST NAME 
LAST_NAME 


ACCT_ID 
COMMENT_CODE 
COMMENT_TEXT 


这 种 符号 表示 产品 变化 从 好 
只 对 应 一 个 账号 。 


“这 种 符号 表示 一 个 账号 可 
能 有 0 个 或 多 个 产品 变化 。 


逻辑 模型 中 的 所 有 四 个 实体 的 信息 可 以 在 
联系 表 中 找到 。 


CONTACT_DATE 


COMPLAINT_CODE | ”使 用 CONTACT_TYPE 字段 区 分 不 同 的 
REFUND_AMOUNT 联系 方式 。 

OLD_PROD Rs 

NEW_PROD 这 个 物理 模型 也 详细 说 明了 准确 的 类 型 、 分 区 、 


索引 、 存 储 特征 、 并 行 度 、 数 值 约 束 ， 以 及 一 
些 商业 用 户 不 感 兴趣 的 其 他 事情 。 


COMMENT_TYPE 
COMMENT_TEXT 


图 1S-2 ”物理 模式 及 逻辑 模式 相互 之 间 可 能 没有 联系 


免费 领取 更 多 资源 V: 3446034937 


发 据 合 翌 、OL4P 而 发 握 范 所 321 


警告 : 数据 库 中 字段 的 存在 并 不 意味 着 数据 确实 是 存在 的 。 理 解数 据 挖 据 中 使 用 的 

每 一 个 字段 ， 不 能 由 于 字段 的 存在 而 假定 其 定位 是 正确 的 ， 这 一 点 是 很 重要 的 ， 对 

此 存在 怀疑 总 是 有 必要 的 。 

类 比 可 能 会 有 助 于 理解 物理 模式 和 导 辑 模式 的 作用 。 逮 辑 模式 描述 事物 的 方式 是 商务 用 
户 熟 悉 的 ， 比 如 一 个 房子 是 大 农场 风格 ， 有 四 个 卧室 、 三 个 浴室 及 两 个 车 库 ; 物理 模式 趋向 
于 对 它 的 结构 布局 进行 更 详细 的 描述 ， 地 基 是 混凝土 加 固 的 ， 有 四 英 斥 深 ， 地板 面 积 有 
1500 平方 英 矿 ， 墙 体 是 混凝土 板材 等 。 这 种 建筑 细节 资料 虽然 有 用 而 且 完整 ， 却 不 一 定 能 
帮助 一 个 家 庭 找到 合适 的 房子 。 


什么 是 关系 数据 库 ? 
存储 数据 最 常用 的 方式 之 一 是 把 数据 存储 于 关系 数据 库 管 理 系统 (RDBMS)。 关 系数 据 
库 的 基本 概念 始 于 20 世纪 70 年 代 早期， 是 由 下 .F.Codd 在 研究 由 元 组 (我 们 在 表 中 称 做 
“ 行 ”的 东西 ) 构成 的 一 种 特殊 类 型 的 集合 性 质 开 始 的 。 从 该 研究 中 ， 他 导出 了 一 个 包含 运 
算 符 的 关系 代数 ， 形 成 了 关系 代数 学 ， 下 图 中 描述 了 其 内 容 。 


过 滤 
过 尖 基 于 一 列 或 更 多 列 中 的 数值 
来 删除 行 ， 每 个 输出 行 既 可 能 包 
含 也 可 能 不 包含 在 输入 表 中 。 


检索 


检索 选择 输出 中 的 列 ， 输 出 中 的 
每 一 列 都 在 输入 列 中 或 者 是 某 些 
输入 列 的 函数 。 


聚集 ( 或 分 组 ) 
聚集 基于 一 个 共同 的 键 把 列 组 合 
在 一 起 ， 所 有 具有 相同 键 的 行 都 
汇总 到 单一 的 输出 行 中 。 


连接 


连接 匹配 两 个 表格 中 的 行 。 对 于 
在 输入 中 键 匹配 的 任何 两 行 ， 在 
输出 中 创建 一 个 新 的 行 。 


关系 数据 库 有 四 个 主要 的 查询 操作 


这 些 操作 是 集合 运算 〈 如 并 集 和 交集 ) 之 外 的 操作 ， 在 非 科 学 技术 中 ， 这 些 关系 操作 是 : 
。 基 于 行 中 的 值 过 滤 一 个 已 知行 的 集合 ; 

。 检索 已 知 列 的 集合 并 对 它们 进行 基本 操作 ; 

。 分 组 行 并 聚集 列 的 值 ; 

。 基 于 列 中 的 值 将 两 个 表格 连接 起 来 。 

有 趣 的 是 ， 这 种 关系 操作 不 包括 分 类 (除非 为 了 输出 目的 )。 这 些 操 作 详细 说 明了 对 元 
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组 可 以 做 什么 ， 而 不 是 如 何 去 完 成 。 事 实 上 ， 关 系数 据 库 常常 利用 分 类 进行 分 组 和 连接 运 
算 ， 然 而 ， 对 于 这 些 运 算 也 存在 以 无 分 类 为 基础 的 算法 。 

SQL 是 20 世纪 80 年 代 由 IBM 开发 出 来 的 ， 它 现在 已 成 为 访问 数据 库 和 实现 这 些 基本 
运算 的 标准 语言 。 因 为 SQL 支持 子 查询 (也 就 是 说 ， 利 用 一 个 查询 的 结果 作为 另 一 个 查询 
的 表 )， 这 使 得 表达 某 些 复杂 数据 操纵 成 为 可 能 。 

表示 数据 库 结构 的 一 种 常用 方法 是 使 用 实体 联系 (ER) 图 ， 下 图 是 5 个 实体 及 其 四 种 联系 
组 成 的 一 个 简单 的 ER 图 。 在 这 个 例子 中 ， 每 个 实体 对 应 于 一 个 独立 的 表 ， 这 个 表 的 列 对 应 于 实 
体 的 属性 。 此 外 ， 还 包含 一 些 表示 数据 库 中 表 之 间 联 系 的 列 ， 这 样 的 列 被 称 为 键 〈 不 是 外 键 就 是 
主键 )。 在 数据 库 表 中 ， 使 用 一 致 的 命名 习惯 显 式 地 存储 键 ， 有 利于 自如 使 用 数据 库 。 

一 笔 交易 恰好 只 发 生 在 一 个 


卖主 身上 ， 但 每 个 卖主 可 能 
有 若干 交易 。 


一 个 账号 有 若干 交易 ， 
但 每 笔 交易 只 与 一 个 ETTIR 
ET 一 位 客户 可 能 有 一 个 或 多 个 账号 ， 
账号 相 联 系 。 但 每 个 账号 只 属于 一 位 客户 。 同 样 
地 ， 一 位 或 多 位 客户 可 能 是 一 家 人 。 


E-R 图 可 用 于 显示 关系 数据 库 中 的 表 和 字段 。 每 一 个 格 表示 单个 表 以 及 它 的 列 。 
它们 之 间 的 连 线 表 示 联 系 ， 像 1 对 多 、1 对 1、 多 对 多 等 。 因 为 每 个 表 与 一 个 实 
体 相 对 应 ， 这 被 称 为 物理 设计 。 


有 了 时， 数据 库 的 物理 设计 是 非常 复杂 的 ， 例 如 ，TRANSACTION TABLE 实际 上 
可 分 裂 为 每 个 月 对 应 于 一 个 独立 的 交易 表格 。 在 这 种 情况 下 ， 上 述 E=-R 图 仍然 
有 用 ， 它 代表 数据 的 逻辑 结构 ， 就 像 一 个 商业 用 户 所 理解 的 那样 。 


实体 联系 图 描述 了 一 个 简单 的 信用 卡 数 据 库 的 数据 布局 


关系 数据 库 的 一 个 很 好 的 特征 是 它 设计 数据 库 的 能 力 ， 其 中 任何 给 定 的 数据 项 恰好 出 现 
在 惟一 的 位 置 一 一 没有 重复 ， 这 样 的 数据 库 称 为 规范 化 的 数据 库 。 理 论 上 讲 ， 准 确 地 知道 每 
一 个 数据 项 所 处 的 位 置 是 高 效 的 ， 因 为 更 新 任何 字段 只 需要 修改 表 中 的 某 一 行 。 如 果 一 个 规 
范 化 的 数据 库 设计 良好 且 得 以 实现 ， 就 没有 宛 祭 数据、 过 时 的 数据 或 无 效 的 数据 。 

规范 化 背后 的 一 个 重要 思想 就 是 创建 参照 表 ， 每 个 参照 表 导 辑 土 对 应 于 一 个 实体 ， 且 都 
有 一 个 键 用 以 查找 关于 实体 的 信息 。 在 一 个 规范 化 的 数据 库 中 , “连接 ”操作 通常 用 于 在 参 
照 表 中 查找 数值 。 

关系 数据 库 是 存储 和 访问 数据 的 有 力 方法 。 然 而 ， 这 种 设计 主要 关注 更 新 和 处 理 大 量 的 交 
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易 数 据 。 数 据 挖掘 的 兴趣 在 于 将 数据 结合 在 一 起 以 发 现 更 高 层 的 模式 。 数 据 挖 气 通 常会 用 到 许 
多 查询 语句 ， 每 一 个 查询 都 需要 几 个 连接 、 儿 个 聚集 及 子 查询 一 一 一 群 真正 的 杀手 查询 。 
什么 是 关系 数据 库 ? 

对 于 数据 挖掘 来 说 ， 关 系数 据 库 〈( 及 SQL) 有 一 些 局 限 性 。 首 先 ， 它 们 对 时 间 序 列 几 
平 不 提供 支持 。 这 使 得 很 难 从 交易 数据 中 推测 出 比如 第 二 次 产品 的 购买 、 客 户 所 响应 的 最 后 
三 次 商品 促销 ， 或 者 事件 发 生 的 次 序 等 事实 ， 这 些 可 能 需要 非常 复杂 的 SQL。 另 一 个 问题 
是 两 个 操作 常常 会 无 意 间 消 除 字 段 。 当 一 个 字段 包含 一 个 缺失 值 (NULL) 时 ， 它 会 自动 舍 
弃 任 何 比 较 关 系 ， 甚 至 是 “不 相等 ”关系 。 同 祥 地 ， 罗 认 的 连接 运算 〈 称 为 内 连接 ) 会 删除 
不 匹配 的 行 ， 这 意味 着 客户 可 能 无 意 间 被 排除 在 数据 查询 之 外 。SQL 中 的 运算 集 并 非特 别 
充足 ， 尤 其 是 那些 文本 和 日 期 字段 。 因 此 ， 每 个 数据 库 销 售 商都 把 标准 的 SQL 进行 扩展 ， 
以 便 包括 稍 有 不 同 的 功能 集合 。 


数据 库 模式 同样 可 以 说 明 数 据 中 不 同 寻常 的 发 现 ， 例 如 ， 我 们 曾经 接手 一 个 美国 的 呼叫 明 
细 记 录 文 件 ， 其 中 包括 以 城市 和 州 为 字段 的 每 一 次 呼叫 目的 地 ， 这 个 文件 包含 超过 两 百 个 州 的 
代码 一 一 比 实际 的 州 多 出 很 多 。 到 底 发 生 了 什么 事情 呢 ? 我 们 发 现 城市 和 州 字段 从 来 没 在 操作 
系统 中 应 用 过 ， 因 此 ， 它 们 的 内 容 自 然 遭 到 了 怀疑 一 一 没有 用 到 的 数据 不 大 可 能 是 正确 的 。 替 
代 城 市 和 州 的 是 ， 所 有 的 位 置信 息 都 通过 邮政 编码 产生 ， 这 些 多 余 的 字段 是 不 准确 的 ， 原 因 
是 ， 这 些 州 字段 被 先 写 上 去 ， 而 有 14 个 字符 长 的 城市 字段 被 后 写 上 去 ， 于 是 较 长 的 城市 名 称 
覆盖 了 与 之 相 邻 的 州 字段 。 所 以 ，“WEST PALM BEACH，FL” 最 终 把 “H” 放 到 州 字 段 中 ， 
成 为 “WEST PALM BEAC,， HL” 的 形式 ， 而 “OOLORADO SPRINGS，CO” 则 变 成 了 “COL- 
ORADO SPRIN,，GS”( 译 者 注 : 这 样 就 会 出 现 很 多 实际 并 不 存在 的 州 代 码 ， 也 就 是 前 面 提 到 的 
美国 会 出 现 200 个 “ 州 ”的 原因 ) ， 理 解数 据 分 布 帮助 我 们 找 出 这 些 有 趣 而 不 寻常 的 问题 。 


15.1.5 元 数据 


元 数据 超越 数据 库 模 式 而 给 出 更 多 信息 ， 它 可 以 使 商业 用 户 理解 什么 类 型 的 信息 被 保存 
在 数据 库 中 。 本 质 上 讲 ， 它 是 关于 系统 的 文档 编制 ， 包 括 以 下 信息 : 

“每 一 个 字段 许可 的 数值 ; 8 

“对 每 个 字段 内 容 的 描述 〈 例 如 : 开始 日 期 到 底 是 销售 日 期 还 是 激活 日 期 ); 

*。 数据 加 载 日 期 ; 

“数据 最 近 更 新 程度 的 表示 (在 一 个 支付 周期 之 后 ， 什 么 时 候 支 付 数据 进 和 人 系统); 

。 映射 到 其 他 系统 〈 某 源 系统 中 ， 表 A 中 的 ID 就 是 表 B 中 的 ID 字段 )。 

当 元 数据 可 用 的 时 候 ， 就 提供 了 一 种 宝贵 的 服务 ; 当 它 们 不 可 用 的 时 候 ， 就 需要 收集 这 种 
类 型 的 信息 ， 通 常 可 以 从 友好 的 数据 库 系 统管 理 员 和 分 析 家 那里 得 到 一 一 这 时 每 个 人 的 时 间 效 
率 都 较 低 。 对 于 数据 仓库 而 言 ， 元 数据 提供 规律 ， 因 为 仓库 的 变化 必然 反映 在 将 与 用 户 沟通 的 
元 数据 中 。 和 总 的 来 说 ， 通 过 让 用 户 更 多 关注 和 熟悉 数据 仓库 的 内 容 ， 一 个 好 的 元 数据 系统 有 助 于 
确保 数据 仓库 的 成 功 。 对 数据 挖掘 者 来 说 ， 元 数据 在 捕 提 和 理解 数据 方面 提供 了 有 价值 的 帮助 。 


15.1.6 商业 规则 


抽象 的 最 高 层 就 是 商业 规则 。 这 些 规则 描述 了 为 什么 会 存在 关联 以 及 如 何 应 用 关联 。 某 
些 商 业 规 则 很 容易 获取 ， 因 为 它们 表现 了 商业 历史 一 一 什么 样 的 交易 活动 会 在 什么 时 候 发 
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生 ， 什 么 样 的 产品 在 何 时 是 有 用 的 ， 等 等 ; 其 他 类 型 的 规则 较 难得 到 ， 它 们 经 常 深 埋 在 代码 
片段 内 及 旧 的 备忘录 中 。 没 有 人 会 记 起 为 什么 欺诈 检 测 (fraud detection) 系统 会 忽略 500 美 
元 以 下 的 索赔 。 也 许 以 前 有 一 个 好 的 商业 理由 ， 但 一 旦 规则 被 植 人 计算 机 代码 ， 这 个 理由 、 
这 个 商业 规则 便 常 常会 被 丢掉 。 

商业 规则 与 数据 挖掘 有 一 个 相近 的 关联 。 某 些 数据 挖掘 技术 ， 像 购物 篮 分 析 和 决策 树 
等 ， 都 会 产生 简明 的 规则 。 这 些 规则 通常 可 能 是 已 知 的 ， 例 如 ， 获 悉 电话 会 议会 与 呼叫 等 待 
一 起 销售 可 能 没有 意义 ， 因 为 这 个 特征 只 是 作为 捆绑 销售 的 一 部 分 来 售 出 的 。 或 者 ， 一 个 直 
接 邮 寄 模 型 所 对 应 的 模型 最 终 目 标 仅仅 是 富 人 区 ， 可 能 反映 出 用 于 建立 这 个 模型 的 历史 数据 
是 有 偏离 的 这 样 一 个 事实 ， 因 为 模型 集 只 在 这 些 地 区 有 响应 者 。 

在 数据 中 发 现 商 业 规则 既是 成 功 也 是 失败 。 找 到 这 些 规则 是 这 些 复杂 深奥 算法 的 成 功 应 
用 ; 但 是 ， 在 数据 挖掘 中 ， 我 们 希望 找到 可 操作 的 模式 ， 然 而 这 样 的 模式 是 不 可 操作 的 。 


15.2 数据 仓库 的 大 致 结构 


有 多 层 途 径 通 往 数据 仓库 ， 这 使 我 们 认识 到 数据 需要 有 多 种 不 同形 式 的 来 源 。 它 提供 了 
一 个 广泛 的 系统 用 于 决策 支持 方面 的 数据 管理 ， 这 种 结构 〈( 见 图 15-3) 的 主要 组 成 部 分 是 : 


最 终 用 户 是 开发 数据 仓库 的 目的 之 所 在 ， 
他 们 按照 从 数据 获取 的 信息 和 知识 采取 
行动 


网 络 使 用 如 开放 数据 库 连接 


(ODBC) 等 标准 协议 将 最 终 
用 户 连 接 到 数据 


部 门 数 据 仓 库 和 元 数据 支持 扩 - 王 有 
最 终 用 户 所 用 的 应 用 软件 


数据 中 央 存 储 是 一 个 应 用 人 


逻辑 数据 模型 的 关系 数据 库 中 央 储 存 库 


提取 、 转 化 和 加 载 工具 
2 在 系统 间 移 动 数据 


操作 系统 是 数据 之 源 ， 它 们 通常 


是 大 型 机 和 中 型 机 系统 
外 部 数据 
某 些 数据 可 能 由 外 部 数据 供应 商 提供 


15-3 ”生成 数据 仓库 的 多 层 途 径 包 括 中 央 储 存 库 、 数 据 中 心 、 
最 终 用 户 工具 及 将 所 有 这 些 连 接 在 一 起 的 工具 
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。 源 系统 就 是 数据 的 来 源 ; 

。 提 取 、 转 化 和 加 载 (ETL) 使 数据 在 不 同 数据 存储 单元 间 移 动 ; 

。 中 央 储 看 库 是 数据 仓库 的 主 存储 处 ; 

“元 数据 储存 库 描 述 哪些 数据 是 有 用 的 以 及 数据 存储 在 哪里 ; 

。 数 据 集 市 给 最 终 用 户 及 应 用 提供 快速 、 专 门 的 存 取 ; 

。 操 作 反馈 整合 决策 支持 ， 送 回 操作 系统 中 ; 

。 最 终 用 户 是 开发 数据 仓库 的 首要 原因 之 所 在 。 

实际 上 ， 在 每 一 个 系统 中 都 存在 一 个 或 多 个 这 样 的 组 成 部 分 ， 它 们 是 贯穿 整个 企业 决策 
支持 的 重要 构件 ， 下 面 关 于 这 些 组 成 部 分 的 讨论 将 沿 着 一 个 数据 流 途 径 进 行 ， 这 些 数 据 像 流 
水 一 样 ， 它 起 源 于 源 系 统 ， 流 过 数据 仓库 的 各 个 组 成 部 分 ， 最 后 把 信息 和 数值 传递 给 最 终 用 
户 。 这 些 组 成 部 分 依赖 于 一 个 由 硬件 、 软 件 及 网 络 组 成 的 技术 基础 ， 这 种 底层 结构 功能 必须 
足够 强大 ， 以 同时 满足 最 终 用 户 的 需求 ， 以 及 不 断 增长 的 数据 和 数据 处 理 的 需求 。 


15.2.1 源 系统 


数据 起 源 于 源 系 统 ， 源 系统 通常 是 操作 系统 和 外 部 数据 和 输入。 这些 系统 是 为 了 使 操作 有 
效 而 设计 的 ， 不 是 为 了 决策 支持 目的 ， 数 据 反映 了 这 一 事实 。 例 如 ， 交 易 数据 可 能 每 几 个 月 
清理 一 次 以 减少 存储 压力 ， 同 样 的 信息 可 能 以 不 同 的 方式 表现 出 来 。 例 如 ， 一 个 零售 点 源 系 
统 使 用 “退还 物品 ”标记 来 表明 退还 商品 。 也 就 是 说 ， 当 客户 同时 购买 了 一 种 新 商品 时 除外 。 
在 这 个 实例 中 ,在 购买 字段 应 有 一 个 负 的 数量 ， 在 现实 世界 中 这 种 不 规则 现象 大 量 存在 。 

通常 ， 客 户 关系 管理 感 兴趣 的 信息 不 是 有 意 的 收集 的 ， 例 如 ， 以 下 是 从 电话 公司 客户 中 
识别 出 商业 客户 的 六 种 可 能 方式 : 

。 利 用 一 个 客户 类 型 指示 项 :“B” 或 “C” 对 应 于 商业 客户 或 普通 客户 ; 

“利用 费 率 计划 : 某 些 只 销售 给 商业 客户 ， 另 一 些 给 普通 客户 ; 

“利用 获取 渠道 : 某 些 渠道 是 为 商业 客户 保留 的 ， 另 一 些 给 普通 客户 ; 

“利用 电话 线 分 机 数目 : 普通 客户 是 1 或 2， 商 业 客 户 则 更 多 ; 

。 利 用 信用 分 类 : 与 普通 客户 相 比 ， 商 业 客户 使 用 的 是 一 个 不 同 的 信用 卡 系列 类 型 

。 利 用 一 个 基于 商业 客户 可 能 呼叫 模式 的 模型 得 分 。 

(显然 ， 这 些 方式 常常 并 不 给 出 一 致 的 结果 。) 在 数据 仓库 中 面临 的 一 项 挑战 是 获得 能 够 
在 整个 商务 活动 中 使 用 的 一 致 的 定义 ， 做 到 这 一 点 的 关键 是 元 数据 能 清楚 地 给 出 每 个 字段 的 
准确 含义 ， 这 样 每 个 使 用 数据 仓库 的 人 都 使 用 同样 的 语言 。 

为 决策 支持 收集 数据 的 重点 在 操作 系统 ， 因 为 这 些 系统 最 初 是 为 交易 过 程 设计 的 。 以 统 
一 的 格式 将 数据 聚集 在 一 起 几乎 总 是 实现 数据 仓库 解决 方案 中 花费 时 间 最 多 的 部 分 。 

源 系统 也 带 来 了 其 他 类 型 的 问题 。 它 们 通常 运行 在 各 式 各 样 的 硬件 上 ， 且 相当 数量 的 软 
件 是 内 部 创建 的 或 高 级 用 户 化 。 这 些 系 统一 般 是 大 型 机 或 中 型 机 系统 ， 且 通常 使 用 复杂 的 、 
独 有 的 文件 结构 。 大 型 机 系统 设计 用 于 支持 和 处 理 数据 ， 而 不 是 共享 数据 。 尽 管 系统 越 来 越 
开放 ， 访 问 这 些 数 据 将 随 之 成 为 一 个 问题 ， 特 别 是 当 不 同 的 系统 用 于 支持 企业 内 不 同 的 部 门 
时 。 而 且 ， 系 统 可 能 按 地 理 区 域 分 布 ， 这 会 进一步 加 剧 将 数据 整合 到 一 起 的 困难 。 


15.2.2 提取 、 转 化 和 加 载 
通过 从 源 系 统 将 数据 映射 和 移动 到 其 他 环境 ， 提 取 、 转 化 和 加 载 (ETL) 工具 解决 了 从 
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各 异 的 系统 收集 数据 的 问题 。 数 据 移动 和 清理 以 前 通常 是 由 程序 员 负 责 完成 的 。 必 要 时 ， 他 
们 编写 一 段 专用 的 程序 代码 。 当 系统 扩展 以 及 源 系 统 发 生变 化 时 ， 这 种 针对 特殊 应 用 的 代码 
变 得 很 脆弱 。 

虽然 编写 程序 可 能 还 是 必需 的 ， 但 现在 有 些 产品 已 经 能 解决 大 部 分 ETL 问题 ， 这 些 工 
具 可 以 详细 列 出 源 系 统 清 单 ， 在 不 同 的 表格 和 文件 之 间 进 行 映 射 。 它 们 提供 了 校 验 数据 的 能 
力 ， 当 加 载 不 成 功 时 指出 存在 的 错误 ， 这 些 工具 同样 支持 在 表格 中 查找 数据 (所 以 ， 只 有 已 
知 的 产品 代码 可 以 加 载 到 数据 仓库 中 )。 这 些 工 具 的 目标 是 描述 数据 来 自 娜 里 ， 它 们 出 现 了 
什么 问题 一 一 而 不 是 为 了 编写 出 按部就班 工作 的 代码 将 数据 从 一 个 系统 提取 出 来 置 人 另 一 个 
系统 。 标 准 程序 语言 ， 比 如 COBOL 和 RPG， 关 注 于 每 一 步 而 不 是 需要 处 理 的 整体 问题 ; 
ETL 工具 常常 提供 一 个 元 数据 界面 ， 最 终 用 户 能 够 了 解 中 央 储 存 库 加 载 期 间 , “他 们 ”的 数 
据 发 生 了 什么 变化 。 

这 种 类 型 的 工具 通常 能 够 很 好 地 处 理 数 据 ， 所 以 我 们 很 吃惊 为 什么 这 样 的 工具 仍然 内 置 
在 IT 部 门 ， 而 且 一 般 不 被 数据 挖掘 者 使 用 。Measterizg Daia Mizaizag 一 书 中 有 一 个 1998 年 
的 案例 ， 它 使 用 Ab Initio 的 这 类 工具 之 一 ， 分 析 上 千 亿 字 节 的 详细 呼叫 记录 一 一 即使 在 今 
天 ， 处 理 如 此 海量 的 数据 仍然 是 一 项 挑战 。 


15.2.3 中央 储存 库 


中 央 储 存 库 是 数据 仓库 的 中 心 ， 它 通常 是 一 个 关系 数据 库 ， 可 以 通过 某 些 SQL 的 不 同 
变 体 来 访问 数据 。 

关系 数据 库 的 优点 之 一 是 它们 可 以 运行 于 功能 强大 、 可 以 升级 的 计算 机 上 ， 它 们 可 以 利 
用 计算 机 的 多 处 理 器 和 磁盘 阵列 〈 参 照 后 面 “ 并 行 技术 背景 知识 ”部 分 )。 例 如 ， 多 数 统计 
学 软件 包 和 数据 挖掘 包 都 能 够 同时 进行 多 线程 处 理 ， 每 条 线程 代表 一 个 任务 ， 在 一 个 处 理 器 
上 运行 。 更 多 的 硬件 并 不 能 让 任何 给 定 的 任务 运行 更 快 〈 除 非 当 其 他 任务 恰好 干扰 它 )。 而 
关系 数据 库 可 以 取 单 个 查询 ， 从 本 质 上 创建 同时 运行 的 多 个 线程 来 处 理 一 个 查询 。 最 后 的 结 
果 是 ,在 强大 的 计算 机 上 进行 数据 密集 的 应 用 时 ， 使 用 关系 数据 库 通常 比 使 用 非 并 行 软件 更 
快 一 一 数据 挖掘 正 是 一 种 数据 密集 的 应 用 。 

中 央 储存 库 的 一 个 关键 部 分 是 逻辑 数据 模型 ， 它 以 商业 用 户 熟 悉 的 术语 描述 数据 库 内 部 
的 数据 结构 。 数 据 模型 通常 会 与 数据 库 的 物理 布局 (或 模式 ) 相 混淆 ， 但 两 者 之 间 有 一 个 重 
要 差别 ， 物 理 布局 的 目的 是 为 了 使 数据 库 的 性 能 最 优 以 及 为 数据 库 系 统管 理 员 (DBA) 提供 
信息 ; 而 逻辑 数据 模型 的 目的 是 为 了 把 数据 库 内 容 传达 给 更 广泛 、 技 术 层次 较 低 的 受众 。 商 
业 用 户 必须 能 理解 逻辑 数据 模型 一 一 实体 、 属 性 及 联系 ， 物 理 布局 是 逻辑 模型 的 一 个 执行 工 
具 ， 是 沿 着 将 性 能 最 优化 这 一 方向 进行 的 折衷 和 选择 。 

在 从 事 一 个 数据 仓库 项 目 时 ， 许 多 组 织 感觉 迫切 需要 开发 一 个 全 面 的 、 企 业 范围 的 数据 
模型 。 出 乎 意料 的 是 ， 这 些 努力 常常 是 失败 的 。 数 据 仓库 的 逻辑 数据 模型 不 必 像 企业 级 模型 
一 样 不 能 作出 某 种 妥协 。 例 如 ， 数 据 仓 库 的 逻辑 数据 模型 出 现 产 品 代 码 冲 突 ， 可 以 〈 但 不 一 
定 必 要 ) 通过 引信 两 种 产品 的 分 层 结构 来 解决 这 个 问题 一 一 仅仅 花费 10 分 钟 就 能 进行 的 决 
定 ， 而 在 企业 级 方案 中 ， 可 能 需要 数 月 的 研究 与 讨论 。 

提示 : 数据 仓库 是 一 个 过 程 。 要 人 警 惕 任何 一 个 作为 数据 仓库 的 大 型 数据 库 没有 一 个 

更 新 系统 的 过 程 来 满足 最 终 用 户 的 需求 。 这 样 的 数据 仓库 最 终 将 被 逐渐 废弃 ， 因 为 
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最 终 用 户 的 需求 可 能 会 逐渐 发 展 ， 但 这 种 系统 却 不 能 。 
并 行 技术 背景 知识 

并 行 技术 是 升级 硬件 的 关键 ， 它 主要 以 两 种 情况 出 现 : 均衡 多 重 处 理 系统 (SMP) 和 大 
规模 并 行 处 理 系统 (MPP)， 这 两 种 系统 均 被 显示 在 下 图 中 。SMP 计算 机 以 一 条 数据 传输 总 
线 〈bus) 为 中 心 (总 线 就 是 一 个 出 现在 所 有 计算 机 中 的 特殊 网 络 ， 它 将 处 理 单元 与 内 存 和 
磁盘 驱动 器 相连 接 )。 数 据 传输 总 线 作为 中 心 通讯 装置 ， 因 此 SMP 系统 有 时 被 称 为 完全 共享 
系统 ， 每 个 处 理 单 元 能 够 访问 所 有 内 存 和 所 有 磁 慢 驱动 。 这 种 并 行 方式 是 相当 普遍 的 ， 因 为 
SMEP 计算 机 支持 像 单一 处 理 器 计算 机 同样 的 应 用 一 一 且 某 些 应 用 可 以 利用 额外 的 硬件 而 只 
对 代码 做 最 小 的 改变 。 但 是 ，SMP 技术 有 它 的 局 限 性 ， 因 为 它 给 中 心 数 据 传 输 总 线 加 上 了 
一 个 很 重 的 负担 ， 当 处 理 负载 增加 时 它 就 会 变 得 人 饮 和。 中 心 数据 传输 总 线 的 争论 点 常常 是 限 
制 SMP 性 能 的 那些 内 容 。 当 处 理 单元 少 于 10 到 20 个 时 ， 它 们 趋向 于 工作 得 更 好 。 

单 处 理 器 

一 个 简单 的 计算 机 遵循 加 诺 依 曼 
结构 安排 ， 处 理 单元 通过 一 条 局 部 
数据 传输 总 线 与 内 存 和 磁盘 通信 
( 内存 既 存 储 数据 又 存储 可 执行 程 


序 )。 处 理 器 、 数 据 总 线 及 内 存 的 
速度 限制 了 性 能 和 可 扩 缩 性 。 


数据 传输 总 线 


SMP(symmetric multiprocessor， 

对 称 多 处 理 器 ) 
对 称 多 处 理 器 (SMP) 有 共享 所 有 事 
情 的 结构 ， 它 扩展 了 数据 传输 总 线 
支持 多 重 处 理 器 、 更 大 内 存 及 大 型 
磁盘 的 能 力 ， 数 据 传输 总 线 的 这 种 
能 力 限制 了 它 的 性 能 及 扩 缩 能 力 。 
SMP 结构 通常 利用 最 高 不 超过 20 个 
处 理 单元 。 


MPP(massively parallel processor 
大 规模 并 行 处 理 器 ) 


大 规模 并 行 处 理 器 (MMP) 有 一 个 不 
共享 的 结构 , 它 引 入 了 高 速 网 络 
(也 称 为 灾 换 机 ) 将 各 自 独 立 的 处 
理 器 / 内存 / 磁盘 等 组 件 连接 起 来 。 
MPP 结 构 非 常 容易 扩 缩 ， 但 仅 有 少 
数 软 件 包 可 以 充分 利用 所 有 硬件 的 
性 能 。 


并 行 计算 机 是 以 冯 ' 诺 依 曼 的 单 处 理 器 结构 为 基础 建立 的 。SMP 和 MPP 系 统 是 
可 扩 缩 的 ， 因 为 更 多 的 处 理 单元 、 磁 盘 驱 动 器 、 内 存 可 以 被 增加 到 系统 中 
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与 之 相对 的 是 ，MPP 的 行为 像 是 把 独立 的 计算 机 通过 非常 高 速 的 网 络 (有 时 称 为 交换 
机 ) 相连 接 。 每 一 个 处 理 单元 有 自己 的 内 存 及 存储 磁 手 ， 某 些 结 点 可 能 是 处 理 过 程 专用 的 ， 
有 最 小 的 磁盘 存储 量 ;其 他 结 点 可 能 是 为 存储 专用 的 ， 有 非常 大 的 磁盘 容量 。 数 据 传输 总 线 
将 处 理 过 程 单元 与 内 存 连 接 ， 而 磁盘 驱动 器 从 来 不 会 达到 他 和 。 但 存在 的 一 个 缺陷 是 ， 某 些 
内 存 及 磁盘 驱动 器 是 本 机 的 ， 而 另 一 些 却 是 远程 的 一 一 这 个 特点 有 可 能 使 MPP 很 难 进行 六 
程 。 为 一 个 处 理 器 设计 的 程序 总 是 可 以 在 MPP 中 的 一 个 处 理 器 上 运行 一 -但 它们 要 求 进行 
某 些 修正 以 利用 所 有 的 硬件 。 只 要 和 连接 处 理 器 的 网 络 可 以 提供 更 多 的 带宽 ，MPP 的 确 可 以 
升级 ， 尤 其 是 ， 更 快 的 网 络 一 般 比 更 快 的 数据 总 线 更 容易 设计 。 目 前 已 经 出 现 了 有 上 千 个 结 
点 和 上 千 个 磁 熏 的 基于 MPP 的 计算 机 。 

SMP 和 MPP 两 者 都 有 自己 的 优点 。 认 识 到 这 点 以 后 ， 计 算 机 生产 商 们 尽量 融合 二 者 的 
优点 。SMP 生产 商 把 SMP 计算 机 联结 在 一 起 构成 计算 机 群 ， 开 始 模仿 MPP 计算 机 ; 同时 ， 
MPP 生产 商用 SMP 蔡 代 单一 处 理 单元 ， 产 生 非常 相似 的 结构 。 然 而 ， 不 管 硬件 是 多 么 强 有 
力 的 ， 软 件 仍 需 要 进行 优化 设计 以 充分 利用 这 些 机 器 的 性 能 。 幸 运 的 是 ， 最 大 的 数据 库 生产 
商 已 经 投资 数 年 ， 以 使 其 产品 能 够 满足 要 求 。 


数据 仓库 是 用 于 管理 记录 的 决策 支持 系统 的 一 个 过 程 。 当 用 户 需 求 随时 间 变 清晰 和 发 生 
变化 时 ， 这 个 过 程 能 够 按 用 户 的 需求 来 调整 。 用 户 的 需求 按时 间 变 化 时 ， 这 个 过 程 能 够 对 商 
业 变化 做 出 响应 。 如 果 没 有 意识 到 “ 当 用 户 获知 关于 数据 和 商务 的 内 容 后 ， 他 们 希望 市 场 营 
销 时 间 度 量 〈 数 天 和 数 周 ) 也 出 现 变化 和 增强 ， 而 不 是 增强 IT 的 时 间 度 量 ( 数 月 )” 这 一 
点 ， 中 央 储 存 库 本 身 将 是 脆弱 的 、 无 用 的 系统 。 


15.2.4 元 数据 储存 库 


在 前 面 有 关 数 据 层次 的 讨论 中 ， 我 们 已 经 讨论 了 元 数据 。 它 也 可 以 被 认为 是 数据 仓库 的 
组 件 。 同 样 地 ， 元 数据 储存 库 是 一 个 常 被 忽视 的 数据 仓库 环境 的 一 部 分 。 元 数据 的 最 低层 是 
数据 库 模式 ， 即 数据 的 物理 布局 。 当 正确 使 用 的 时 候 ， 元 数据 非常 多 。 它 回答 了 最 终 用 户 关 
于 数据 有 效 性 的 问题 ， 为 用 户 提 供 工具 浏览 数据 仓库 的 内 容 ， 让 每 个 人 对 数据 更 有 信心 ， 这 
种 信心 是 新 应 用 及 扩大 用 户 基 的 基础 。 

好 的 元 数据 系统 将 包括 以 下 几 个 方面 : 

。 有 注释 的 逻辑 数据 模型 ， 这 种 注释 应 该 说 明 实 体 和 属性 ， 包 括 有 效 值 ; 

。 从 逻辑 数据 模型 到 源 系 统 的 映射 ; 

。 物 理 模式 ; 

。 从 逻辑 模型 到 物理 模式 的 映射 ; 

“访问 数据 的 常用 视图 和 规则 ， 对 一 个 用 户 有 用 的 东西 也 许 对 其 他 用 户 也 是 有 用 的 ; 

。 加 载 和 更 新 信息 ; 

*。 安 全 和 获取 信息 ; 

。 最终 用 户 和 开发 者 接口 ， 以 便 共 享 数据 库 的 相同 描述 。 

在 任何 一 个 数据 仓库 环境 中 ， 这 些 信息 片段 中 的 每 一 个 均 可 以 在 某 些 地 方 找到 一 一 在 
DBA 写 出 的 脚本 中 ， 在 电子 邮件 、 文 件 、 数 据 库 的 系统 表 中 等 。 元 数据 储存 库 可 以 让 用 户 
得 到 这 些 有 用 的 信息 ， 用 一 种 他 们 雁 易 理解 的 格式 。 关 键 就 是 给 用 户 提供 访问 权限 ， 以 便 他 
们 能 够 方便 地 利用 数据 仓库 ， 使 用 它 所 包含 的 数据 以 及 知道 如 何 使 用 它 。 
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15.2.5 数据 集 市 


数据 仓库 并 非 可 以 做 任何 事情 〈 除 了 有 效 地 存 取 数 据 以 外 )。 应 用 必须 实现 价值 ， 这 通 
常 以 数据 集 市 〈data mart) 的 形式 出 现 。 数 据 集 市 是 一 个 专用 系统 ， 它 能 够 把 部 门 或 相关 应 
用 需要 的 数据 结合 在 一 起 。 数 据 集 市 常常 被 用 于 报表 系统 及 分 片 切 块 数据 。 这 样 的 数据 集 市 
经 常 使 用 OLAP 技术 ， 本 章 稍 后 将 讨论 这 一 问题 。 另 一 个 重要 的 数据 集 市 类 型 是 一 种 用 于 
数据 挖掘 的 探测 环境 ， 这 将 在 下 一 章 中 讨论 。 

并 不 是 数据 集 市 中 所 有 的 数据 都 需要 来 自 中 央 储存 库 。 通 常 ， 特 殊 应 用 对 数据 有 独特 的 
要 求 。 例 如 ， 房 地 产 部 门 可 能 正在 把 地 理 信 息 与 中 央 储 存 库 信 息 相 结合 ; 销售 部 门 可 能 正 把 
邮政 编码 人 口 统计 学 与 中 央 储 存 库 中 的 客户 数据 结合 。 中 央 储 存 库 只 需要 包含 不 同 应 用 之 间 
可 能 共享 的 数据 ， 因 此 它 仅 仅 是 一 个 数据 源 ， 对 于 数据 集 市 来 说 ， 经 常 是 占有 主导 地 位 的 那 
个 数据 源 。 


15.2.6 操作 反馈 


操作 反馈 系统 把 由 数据 得 来 的 决策 返回 到 操作 系统 中 。 例 如 ， 一 家 大 银行 可 能 开发 交叉 
销售 模型 以 决定 下 一 步 提 供给 客户 什么 样 的 产品 ， 这 是 数据 挖 据 系 统 的 结果 。 然 而 ， 为 了 使 
它 有 用 ， 这 一 信息 需要 返回 操作 系统 。 这 就 要 求 有 一 个 从 决策 支持 基础 设施 返回 进入 操作 基 
础 设施 的 联系 。 

操作 反馈 可 提供 快速 完成 有 效 数据 控 据 循环 的 能 力 。 一 旦 建立 一 个 反馈 系统 ， 需 要 参与 
的 工作 仅仅 是 监测 和 改进 它 一 一 为 了 让 计算 机 做 到 最 好 〈 重 复 性 的 任务 )， 让 人 们 做 到 最 好 
(发 现 重要 的 模式 并 提出 想法 )。 以 Web 为 基础 的 商业 活动 的 优势 之 一 是 ， 从 理论 上 讲 ， 它 
们 能 够 以 一 种 完全 自动 化 的 方式 为 操作 系统 提供 这 样 的 反馈 。 


15.2.7 最终 用 户 和 桌面 工具 


在 任何 数据 仓库 中 ， 最 终 用 户 是 终极 的 和 最 重要 的 组 成 部 分 。 没 有 用 户 的 系统 就 没有 创 
建 的 价值 ， 这 些 最 终 用 户 是 那些 查找 信息 的 分 析 师 、 应 用 软件 开发 者 ， 以 及 依照 信息 进行 商 
务 活动 的 商业 用 户 。 

1. 分 析 师 

分 析 师 想 访问 尽 可 能 多 的 数据 来 辨别 模式 和 创建 特定 报告 。 他 们 使 用 专门 的 工具 ， 像 统 
计 软 件 包 、 数 据 控 掘 工具 及 电子 数据 表 等 。 分 析 师 常常 被 认为 是 数据 仓库 的 主要 受众 。 

通常 ， 仅 仅 只 有 少数 技术 经 验 丰 富 的 人 属于 这 一 类 。 尽 管 他 们 所 做 的 工作 很 重要 ， 但 也 
很 难 判断 一 个 基于 增加 生产 力 的 大 型 投资 是 否 正 确 。 数 据 控 气 良性 循环 正 是 在 这 里 开始 起 作 
用 ， 数 据 仓库 以 干净 的 、 有 意义 的 格式 把 数据 聚集 在 一 起 。 尽 管 其 目的 是 刺激 创造 力 ， 但 要 
测量 它 却 是 一 个 非常 难以 实现 的 想法 。 

分 析 师 对 数据 仓库 有 非常 特殊 的 要 求 : 

“系统 必须 能 做 出 响应 。 众 多 的 分 析 工 作 是 以 特定 分 析 或 特定 疑问 的 形式 来 回答 紧迫 问 

题 的 方式 进行 的 。 
“ 在 整个 数据 库 中 数据 必需 相互 一 致 。 就 是 说 ， 如 果 一 个 客户 从 某 个 特定 日 期 开始 ， 那 
么 第 一 件 产 品 、 渠 道 等 都 应 该 准确 地 在 那个 日 期 出 现 。 
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。 数据 必需 在 整个 时 期 内 一 致 。 某 个 有 特殊 意义 的 字段 在 一 定时 间 内 回 湖 时 必须 有 相同 
的 意义 。 至 少 ， 其 不 同 点 应 该 有 备份 文件 说 明 。 

。 必须 能 够 深入 到 客户 层次 、 最 好 是 交易 层次 的 细节 ， 来 验证 数据 仓库 中 的 值 ， 并 发 展 
出 关于 客户 行为 的 新 的 概要 。 

分 析 者 给 数据 仓库 加 上 了 一 个 很 重 的 负担 ， 即 必须 用 即时 方式 可 以 访问 一 致 的 信息 。 

2. 应 用 软件 开发 者 

数据 仓库 通常 支持 一 个 宽阔 的 应 用 范围 〈 换 句 话 说 ， 数 据 集 市 有 各 种 各 样 的 方式 )。 为 
了 开发 稳定 及 强 有 力 的 应 用 软件 ， 开 发 者 对 数据 仓库 有 一 些 特殊 的 要 求 。 

首先 ， 他 们 正在 开发 的 应 用 软件 需要 与 数据 仓库 的 结构 变化 相隔 离 。 新 表 、 新 字段 及 对 
现 有 表 结 构 的 改造 ， 应 该 对 现 有 应 用 的 影响 尽 可 能 小 。 特 殊 的 应 用 一 一 特殊 的 视图 帮助 提供 
这 项 保证 。 另 外 ， 关 于 哪些 应 用 使 用 哪 种 属性 及 实体 的 开放 通信 及 知识 能 够 防止 出 现 拥塞 
僵局 。 

第 二 ， 开 发 者 需要 访问 有 效 字段 值 ， 且 需要 知道 该 值 代表 什 么 意义 ， 这 是 元 数据 库 的 目 
的 所 在 ， 它 提供 数据 结构 中 的 文档 说 明 。 通 过 建立 应 用 程序 以 元 数据 中 的 期 望 值 校 验 数 据 
值 ， 开 发 者 能 够 避免 在 应 用 软件 完成 后 经 常 出 现 的 问题 。 

开发 者 也 需要 在 数据 仓库 的 结构 上 提供 反馈 。 通 过 识别 必需 包括 在 仓库 中 的 新 数据 以 及 
利用 已 经 加 载 的 数据 来 修正 问题 ， 是 改进 数据 仓库 的 基本 方法 之 一 。 因 为 真正 的 商务 需要 推 
动 应 用 软件 的 发 展 ， 了 解 开 发 者 的 需求 以 确保 数据 仓库 包含 它 所 需要 递送 的 商业 价值 的 数据 
是 重要 的 。 

数据 仓库 将 会 发 生变 化 ， 而 应 用 软件 将 继续 使 用 它 。 达 到 成 功 的 关键 是 控制 及 管理 这 种 
改变 。 应 用 软件 的 目标 是 为 了 最 终 用 户 ， 数 据 仓库 的 目的 是 满足 它们 的 数据 需求 一 一 而 不 应 
是 反 过 来 。 

3. 商业 用 户 

商业 用 户 是 由 公司 数据 仓库 得 来 的 信息 的 最 终 使 用 者 。 他 们 的 需求 推动 着 一 系列 方面 的 
发 展 ， 包 括 应 用 软件 、 仓 库 的 体系 结构 、 所 包含 的 数据 及 执行 的 优先 权 等 。 

多 数 商 业 用 户 仅 通过 印 好 的 报告 、 静 态 的 联机 报告 或 电子 数据 表 体 验 仓 库 一 一 基本 上 与 
他 们 已 长 时 间 使 用 的 收集 信息 的 方式 相同 。 即 使 如 此 ， 这 些 用 户 也 会 体验 到 拥有 一 个 数据 仓 
库 的 威力 : 报告 变 得 更 加 精确 、 更 加 一 致 ， 而 且 更 容易 生成 。 

更 重要 的 是 ， 那 些 在 办 公 桌 上 使 用 计算 机 的 人 们 ， 乐 意 利 用 直接 方式 访问 数据 仓库 环 
境 。 通 常情 况 下 ， 这 些 用 户 访问 中 间 的 数据 集 市 来 满足 绝 大 多 数 信息 需求 ， 使 用 的 是 运行 在 
他 们 熟悉 的 桌面 环境 上 的 友好 图 形 工具 。 这 些 工 具 包 括 现成 的 查询 生成 器 、 客 户 应 用 软件 、 
OLAP 界面 及 报告 生成 工具 等 。 有 时 候 ， 商 业 用 户 可 以 深入 到 中 央 储 存 库 去 探究 那些 在 数据 
中 发 现 的 特别 有 趣 的 事情 。 更 多 的 时 候 ， 他 们 会 联系 一 个 分 析 师 ， 让 他 〈 或 她 ) 做 一 些 更 繁 
重 的 分 析 工 作 。 

商业 用 户 也 会 有 针对 特殊 目的 的 应 用 软件 ， 其 中 也 许 戏 入 了 前 几 章 中 讨论 过 的 数据 挖掘 
技术 。 比 如 ， 一 个 资源 调度 应 用 软件 可 能 包含 利用 遗传 算法 来 优化 时 间 安 排 的 引擎 ， 一 个 销 
售 预测 应 用 软件 可 能 含有 内 置 的 生存 分 析 模型 。 当 藤 入 一 个 应 用 软件 时 ， 数 据 控 气 算法 对 最 
终 用 户 通常 完全 隐藏 起 来 ， 用 户 更 加 关心 的 是 结果 而 不 是 产生 结果 的 算法 。 
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15.3 OOLAP 适用 于 何 处 


儿 十 年 以 来 ， 商 业 领 域 一 直 在 生成 自动 化 的 报告 以 满足 商业 需求 。 图 15-4 显示 了 各 种 
常规 报告 手段 。 最 古老 的 手工 方法 是 大 型 机 报告 生成 工具 ， 它 的 输出 传统 上 是 打印 在 绿 条 纸 
或 显示 在 绿色 荧光 屏 上 ， 这 些 大 型 机 报告 在 计算 机 出 现 以 前 把 基于 纸 的 方法 自动 化 。 产 生 这 
样 的 报告 通常 是 信息 服务 部 门 的 基本 职责 ， 即 使 对 报告 进行 很 小 的 改变 ， 也 需要 修改 代码 ， 
有 时 甚至 要 耗 用 数 十 天 。 在 用 户 要 求 变化 时 和 用 户 看 到 几 周 及 几 个 月 后 测量 得 到 的 新 信息 的 
时 间 之 间 ， 结 果 有 一 个 延迟 。 这 是 很 古老 的 技术 ， 各 个 企业 都 试图 避免 这 种 情况 ， 只 有 那些 
汇总 特定 操作 系统 的 最 低层 的 报告 例外 。 


数据 源 常 常 是 用 于 操作 的 遗留 
大 型 机 系统 ， 但 它 能 够 作为 一 
个 数据 仓库 。 


使 用 不 同 的 过 程 ( 常常 太 麻烦 
而 难以 理解 ， 或 太 陈旧 而 难以 
改变 )， 操 作 数据 被 提取 和 汇总 。 


来 自 大 型 机 系统 的 基于 纸 的 
报告 是 商业 过 程 的 一 部 分 。 


有 基于 多 维 立方 体 的 OLAP 工具 

太 迟 而 没有 弹性 。 维 。 9 OLAP 工 具 ， 
可 以 访问 某 些 数据 及 拥有 构 ， 总 
成 自己 的 查询 的 能 力 。 


图 1$-4 ”对 操作 系统 的 报告 需求 处 理 方式 已 经 沿用 了 几 十 年 ， 这 是 最 佳 方式 吗 


中 间 是 不 用 定制 的 查询 生成 包 ， 在 过 去 的 十 年 中 ， 该 查询 包 用 于 访问 数据 已 经 变 得 非常 
普遍 。 它 们 在 SQL 中 产生 查询 ， 通 过 一 个 标准 协议 ， 比 如 开放 式 数 据 库 连 接 (ODBC) 标 
准 ， 与 局 部 的 或 远程 的 数据 源 进行 对 话 。 这 种 报告 可 能 能 人 电子 数据 表 中 ， 通 过 Web 进行 
访问 ， 或 通过 某 些 其 他 的 报告 界面 。 利 用 大 约 一 天 时 间 的 训练 ， 商 业 分 析 师 常常 能 够 给 出 需 
要 的 报告 。 当 然 ， 报 告 本 身 常 常 作为 一 个 SQL 查询 运行 在 已 经 超 负 荷 的 数据 库 中 ， 所 以 当 
这 种 查询 被 认为 运行 完成 时 ， 响 应 时 间 通 常 是 以 分 钟 或 小 时 为 单位 。 这 些 响应 时 间 比 旧 的 报 
告 生 成 包 更 快 ， 但 它们 对 于 发 气 数 据 仍然 很 困难 。 我 们 的 目标 是 能 够 提出 问题 ， 而 答案 返回 
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时 仍 能 记得 该 问题 。 

OLAP 是 一 个 针对 特定 查询 系统 的 重要 改进 ， 因 为 OLAP 系统 设计 数据 结构 时 以 用 户 为 
目的 。 这 一 强 有 力 且 高 效 的 表示 法 被 称 为 立方 体 ， 它 非常 适合 分 片 及 分 块 数据 。 该 立方 体 本 
身 或 者 存储 在 一 个 关系 数据 库 中 〈 典 型 的 是 星 形 模式 ) ， 或 者 存储 在 一 个 由 OLAP 运算 优化 
的 多 维 数据 库 中 。 另 外 ，OLAP 工具 提供 了 非常 方便 的 分 析 功 能 ， 这 在 SQL 中 是 很 难 或 不 
可 能 进行 的 。 如 果 说 OLAP 工具 有 一 个 不 足 的 话 ， 那 就 是 它 使 得 商业 用 户 只 关注 于 数据 所 
代表 的 维 。 与 之 不 同 的 是 ， 数 据 挖掘 对 创造 性 思维 是 特别 有 价值 的 。 

建立 立方 体 要 求 对 数据 及 最 终 用 户 需求 进行 分 析 ， 这 一 般 要 由 熟悉 数据 和 工具 的 专家 通 
过 一 个 称 为 多 维 建 模 的 过 程 来 完成 。 虽 然 设 计 和 加 载 OLAP 系统 需要 一 项 初始 投资 ， 但 其 
结果 为 最 终 用 户 提供 信息 及 快速 访问 ， 它 通常 比 从 查询 生成 工具 得 到 的 结果 更 加 有 用 。 一 旦 
立方 体 建立 起 来 ， 响 应 时 间 通 常 可 以 以 秒 计 算 ， 人 允许 用 户 探 究 数据 ， 创 根 问 底 地 理解 他 们 所 
遇 到 的 重要 特征 。 

OLAP 是 对 早期 报告 方法 的 强大 改进 ， 它 的 威力 有 三 个 关键 特征 : 

“ 第 一 ， 设 计 良 好 的 OLAP 系统 有 一 组 相关 的 维 一 一 比如 地 理 、 产 品 及 时 间 等 一 一 这 对 于 

商业 用 户 很 容易 理解 。 这 些 维 对 于 数据 挖掘 目的 通常 是 重要 的 。 

"第 二 ， 设 计 良 好 的 OLAP 系统 有 一 组 与 商业 相关 的 有 用 的 度量 。 

“第 三 ，OLAP 系统 允许 用 户 分 片 、 切 块 数据 ， 有 时 可 下 钻 到 顾客 层次 。 

提示 : 快速 响应 时 间 对 获取 用 户 对 报告 系统 的 认同 非常 重要 。 当 用 户 需要 等 待 时 ， 

他 们 可 能 忘记 自己 所 问 的 问题 ， 最 终 用 户 经 历 的 交互 响应 时 间 应 该 在 3 一 3 秒 。 

这 些 能 力 是 对 数据 挖掘 的 补充 ， 但 不 是 它 的 替代 。 不 过 ，OLAP 是 数据 仓库 结构 中 非常 
重要 的 (甚至 可 能 是 最 重要 的 ) 部 分 ， 因 为 它 拥有 的 用 户 数量 是 最 大 的 。 


15.3.1 立方 体 中 的 内 容 


了 解 OLAP 的 一 个 好 方法 是 ， 把 数据 想象 成 把 一 个 立方 体 分 割 成 多 个 子 立 方 体 ， 如 图 
15-5 所 示 。 虽 然 这 个 例子 使 用 了 三 个 维度 ,但 OLAP 可 以 有 更 多 ， 三 维 对 于 说 明 目 的 是 很 
有 用 的 。 这 个 例子 显示 了 一 个 典型 的 零售 业 立 方 体 ， 一 维 为 时 间 ， 另 一 维 为 产品 ， 第 三 维 为 
店铺 ， 每 个 子 立方 体 包含 各 种 度量 ， 表 示 关 于 该 种 产品 在 某 个 日 期 正在 发 生 的 事情 ， 如 : 

。 销 售 项 目 总 数 ; 

*。 项目 价值 总 和 ; 

。 项目 中 折扣 总 和 ; 

。 项 目 库存 成 本 。 

各 种 度量 被 称 为 事实 。 作 为 一 项 经 验 规 则 ， 维 度 是 由 分 类 变量 (categorical variable) 组 
成 的 ， 而 事实 是 数值 型 的 。 当 用 户 分 片 切 块 数据 时 ， 他 们 正 从 许多 不 同 子 立方 体 中 聚集 那些 
事实 。 维 度 被 用 于 确定 查询 中 使 用 了 哪 一 个 子 立 方 体 。 

即使 是 上 面 所 描述 的 一 个 简单 的 立方 体 ， 它 也 是 非常 有 力 的 。 图 15-6 给 出 了 一 个 示例 ， 
它 汇总 了 立方 体 中 的 数据 ， 回 答 了 “有 多 少 天 ， 一 个 特定 商店 没有 销售 一 种 特定 产品 ”的 问 
题 。 这 样 的 问题 需要 使 用 商店 及 产品 维度 来 确定 忆 个 查询 使 用 了 哪个 子 立方 体 。 这 个 问题 仅 
考虑 了 一 个 事实 ， 即 售 出 项 目的 数目 ， 返 回 所 有 该 数据 为 0 的 那些 日 期 。 以 下 是 另外 一 些 可 
以 相对 容易 回答 的 问题 : 
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。 在 过 去 的 一 年 里 ， 销 售 项 目 总 和 是 多 少 ? 
。 以 月 为 单位 计数 ， 东 北 地 区 的 商店 今年 的 销售 与 往年 相 比 情况 如 何 ? 
。11 月 每 个 商店 的 全 部 利润 是 什么 “〈 利 润 是 指 客户 所 付 价钱 减 去 库存 成 本 )? 


ee 
oo 


HE 
NAN 


和 


图 15-5 用 于 OLAP 的 立方 体 被 分 成 多 个 子 立 方 体 ， 每 个 子 立方 体 包含 该 立方 体 的 键 ， 
以 及 落 和 人 那个 子 立 方 体 的 数据 的 概要 信息 


当然 ， 获 取 能 够 回答 这 些 问 题 中 的 一 个 问题 的 报告 的 难 易 程 度 ， 取 决 于 该 报告 界面 的 具 
体 执 行 方式 。 然 而 ， 即 使 对 于 特殊 报告 ， 访 问 立方 体 结 构 比 访问 一 个 规范 化 关系 数据 库 来 说 
要 更 容易 一 些 。 

1. 立方 体 的 三 种 变 体 

上 一 节 所 描述 的 立方 体 是 一 个 概要 数据 立方 体 的 例子 。 这 是 在 OLAP 中 很 常见 的 例子 。 
然而 ， 并 不 是 所 有 的 立方 体 都 是 概要 立方 体 ， 而 且 ， 针 对 不 同 目的 ， 一 个 数据 仓库 可 能 包含 
许多 不 同 的 立方 体 。 

另外 一 种 类 型 的 立方 体 代表 的 是 个 别 事件 。 这 些 立 方 体 包含 着 与 客户 互动 的 最 详细 的 相 
关 数 据 ， 如 呼叫 客户 服务 、 支 付 、 个 人 账单 等 。 概 要 可 以 通过 聚集 整个 立方 体 的 事件 得 到 ， 
这 种 事件 立方 体 通常 有 一 个 客户 维度 或 某 些 相似 的 事情 ， 如 账号 $- -Web cookie 或 一 个 家 庭 ， 
这 些 事情 可 以 把 事件 与 客户 联系 起 来 。 通 常 ， 很 少数 目的 维度 ， 如 客户 ID、 日 期 、 事 件 类 
型 就 足以 识别 每 个 子 立 方 体 。 然 而 ， 一 个 事件 立方 体 常 常 还 有 其 他 一 些 维度 ， 它 们 提供 更 详 
细 的 信息 ， 对 于 聚集 数据 很 重要 。 在 这 样 的 一 个 表 中 的 事实 ， 常 常 包含 美元 总 数 和 计数 。 

事件 立方 体 功能 是 非常 强大 的 ， 但 它们 的 应 用 受 限 ， 因 为 它们 能 飞快 地 变 大 一 一 代表 它们 
的 数据 库 表 可 能 有 数 百 万 、 数 亿 甚至 数 十 亿 行 ， 即 使 利用 OLAP 及 并 行 计算 机 的 计算 能 力 ， 这 
样 的 立方 体 对 于 常规 查询 还 是 需要 一 些 处 理 时 间 。 虽 然 如 此 ， 事 件 立方 体 仍 有 特殊 的 价值 ， 因 
为 它们 使 得 从 其 他 立方 体 “ 下 外 ”进去 成 为 可 能 一 一 去 发 现 精确 的 事件 集 用 于 计算 特定 值 。 
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1 
和 As 


训 关 


| 作 间 里 对 相同 产品 的 购买 


这 些 是 某 些 子 立方 体 
的 更 详细 的 情况 


product = 


对 应 于 该 问题 的 答案 是 ， 计数 (count) 不 为 0 的 子 立方 体 的 数目 
图 15-6 在 过 去 的 多 少 天 中 和 商店 没 卖 出 任何 产品 立 


立方 体 的 第 三 种 类 型 是 事件 立方 体 的 变 体 。 它 是 无 事实 的 事实 表 ， 目 的 是 代表 某 些 事件 
发 生 的 证 据 。 例 如 ， 可 能 有 一 个 无 事实 的 事实 表 ， 它 详细 说 明了 包括 在 直接 邮寄 活动 中 的 潜 
在 顾客 ， 这 样 的 事实 表 可 能 有 下 列 一 些 维 数 : 

。 洪 在 客户 ID (或 许 是 家 庭 ID) ; 

。 潜 在 客户 来 源 ; 

。 邮 寄 的 目标 日 期 ; 


这 就 是 对 于 某 个 姓名 可 能 不 存在 任何 数值 型 事实 的 情况 。 当 然 ， 对 于 维度 ， 可 能 有 令 人 
感 兴趣 的 特征 一 一 例如 该 优惠 的 促销 花费 和 购买 名 单 的 花费 等 。 但 这 个 数据 可 以 通过 维度 来 
得 到 ， 因 而 不 需要 在 单个 潜在 客户 的 层次 上 进行 重复 。 
不 管事 实 表 的 类 型 如 何 ， 都 有 一 个 重要 的 规则 : 任何 一 条 特别 信息 都 应 该 刚好 落 和 一 个 
子 立 方 体 中 。 违 反 了 这 一 规则 ， 立 方 体 就 不 能 被 容易 地 用 于 各 种 各 样 维度 的 报告 。 这 一 规则 
的 一 个 必然 结果 是 : 当 一 个 OLAP 立方 体 被 加 载 ， 追 踪 任 何 出 现 意外 维度 值 的 数据 是 非常 
重要 的 。 每 一 个 维度 应 该 有 一 个 “其 他 ”类 ， 以 保证 所 有 进来 的 数据 有 位 置 。 
提示 : 当 为 立方 体 选择 维 时 ， 要 确信 每 一 条 记录 处 在 一 个 准确 的 子 立 方 体 中 。 如 果 
有 多 余 的 维 一 一 如 一 个 维 是 日 期 ， 另 么 同一 记录 将 处 在 两 个 或 
更 多 的 子 立方 体 中 。 如 果 发 生 了 这 样 的 事 ， 那 么 基于 子 立 方 体 的 汇总 就 不 准确 。 
除了 插入 立方 体 的 每 条 记录 应 该 刚好 处 于 一 个 子 立方 体 中 这 条 最 为 重要 的 基本 规则 以 
， 设 计 有 效 的 立方 体 时 ， 要 说 记 以 下 另外 三 件 事情 : 


多 


一 
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。 确 定 事实 ; 

。 处 理 复杂 维度 ; 

。 使 维度 在 整个 数据 仓库 中 保持 一 致 。 

当 试图 发 展 立 方 体 的 时 候 ， 就 会 出 现 这 三 个 问题 ， 解 决 它们 对 于 立方 体 用 于 分 析 目 的 是 
很 重要 。 

2. 事实 

事实 就 是 每 一 个 子 立方 体 的 度量 。 最 有 用 的 事实 是 可 以 求 和 的 ， 因 而 它们 可 以 把 许多 不 同 
的 子 立 方 体 结合 在 一 起 ， 从 而 在 任何 汇总 层次 上 提供 查询 的 响应 。 可 求 和 的 事实 可 以 使 我 们 在 
任意 维度 方向 上 或 同时 褒 几 个 不 同 的 维度 来 汇总 数据 一 一 这 恰恰 是 使 用 立方 体 的 目的 之 所 在 。 

可 求 和 事实 示例 ， 

。 计 数 ; 

。 具 有 一 个 特定 值 的 变量 计数 ; 

。 合 计 持 续 时 间 (如 花费 在 某 个 Web 站 点 上 ); 

。 合 计 币 值 。 

某 一 天 花费 在 某 件 特定 商品 上 的 总 金额 就 是 每 一 家 商店 花费 在 该 产品 上 的 金额 总 数 ， 这 
是 一 个 可 求 和 事实 的 好 例子 。 但 不 是 所 有 事实 都 是 可 求 和 的 ， 不 可 求 和 的 例子 包括 : 

。 平 均值 ; 

。 惟 一 计数 ; 

。 不 同 立 方 体 共享 事物 的 计数 ， 如 交易 。 

平均 值 并 不 是 一 个 不 可 求 和 事实 的 重要 的 例子 ， 因 为 平均 值 是 总 数 除 以 计数 。 由 于 其 中 
的 每 一 个 都 是 可 求 和 的 ， 可 以 结合 这 些 事实 以 后 来 导出 平均 值 。 

其 他 实例 更 有 意义 ， 一 个 重要 的 问题 是 有 多 少 独特 的 客户 做 某 个 特别 的 举动 。 虽 然 这 些 
数值 能 够 在 子 立 方 体 中 存储 ， 但 不 是 可 求 和 的 。 考 虑 具有 日 期 、 商 店 、 产 品 维度 的 一 个 零售 
立方 体 。 个 别 客 户 可 能 在 多 个 商店 中 购买 项 目 ， 或 在 一 个 商店 购买 多 个 项 目 ， 或 在 不 同 的 时 
间 进 行 购买 。 包 含 独特 客户 数目 的 字段 有 关于 某 个 客户 在 多 个 子 立 方 体 中 的 信息 ， 这 违反 了 
OLAP 最 重要 的 规则 ， 因 此 ， 该 立方 体 将 不 能 报告 独特 的 客户 。 

当 试 图 计算 交易 数目 时 会 发 生 类 似 的 事情 。 因 为 关于 交易 的 信息 可 能 存储 在 几 个 不 同 的 
子 立 方 体 中 (因为 个 别 交 易 可 能 包括 多 项 产品 ) ， 交 易 计 数 也 违反 了 该 重要 规则 。 这 种 类 型 
的 信息 不 能 在 概要 层 上 收集 。 

关于 事实 需要 注意 的 另 一 个 问题 是 ， 并 非 所 有 数值 型 数据 都 可 作为 立方 体 的 事实 。 例 如 ， 
多 少 岁 是 数值 型 的 ， 但 把 它 作为 一 个 维 比 作为 一 个 事实 更 好 。 另 一 个 例子 是 客户 价值 ， 把 客户 
价值 的 离散 范围 当成 一 个 维 更 有 用 ， 在 许多 情况 下 会 比试 图 将 客户 价值 当成 事实 更 有 用 。 

当 设计 立方 体 的 时 候 ， 为 一 组 相关 的 数值 创建 一 个 计数 或 总 和 ， 很 容易 把 事实 与 维度 混 
淆 到 一 起 ， 例 如 : 

。 保 有 期 少 于 1 年 、 在 1 到 2 年 之 间 、 超 过 2 年 的 活 牙 客户 计数 ; 

。 在 每 周 工作 日 中 的 花 销 数量 ， 在 每 个 周末 的 花 销 数量 ; 

。 某 周 中 每 天 的 总 数 。 

上 述 中 的 每 一 个 都 建议 立方 体 建立 另外 的 维 ， 第 一 个 应 该 有 一 个 客户 保有 期 维 ， 它 至 少 有 
三 个 值 ; 第 二 个 出 现在 一 个 以 月 作为 时 间 维 的 立方 体 中 ， 这 些 事实 建议 需要 一 个 每 日 概要 ， 至 
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少 可 以 沿 着 一 个 维 分 离 工作 日 和 周末 ; 第 三 个 建议 需要 一 个 以 天 数 间隔 为 单位 的 日 期 维 。 

3. 维 及 其 分 层 

有 时 ， 单 个 列 似乎 适 于 多 个 维 。 例 如 ，OLAP 对 于 可 视 化 按时 间 变 化 的 趋势 旦 一 个 好 的 
工具 ， 像 销售 数据 或 财务 数据 等 。 在 这 个 示例 中 ， 一 个 特定 日 期 潜在 地 表现 了 沿 几 维 的 信 
息 ， 如 图 15-7 所 示 : 

。 周 几 

。 月 份 

。 季 度 

。 历 法 年 


日 期 (1997 年 3 月 7 日 ) 


图 15-7 “日 期 的 多 重 分 层 


一 种 方法 是 把 每 一 个 都 作为 一 个 不 同 的 维 。 换 句 话说， 可 能 有 四 个 维度 ， 一 个 是 周 几 ， 
一 个 是 月 ， 一 个 是 季 ， 还 有 一 个 是 历法 年 。 这 样 ，2004 年 一 月 的 日 期 就 会 是 一 个 子 立方 体 ， 
即 一 月 份 维度 与 2004 年 维度 相交 的 地 方 。 

这 不 是 一 个 好 方法 。 多 维 建 模 发 现 ， 时 间 是 一 个 重要 的 维 ， 并 且 可 以 有 很 多 不 同 的 属 
性 。 除 了 以 上 所 述 的 属性 以 外 ， 还 有 该 周 属于 一 年 中 的 哪 一 周 ， 该 日 期 是 否 是 假日 ， 该 日 期 
是 否 是 工作 日 等 。 这 样 的 属性 存储 在 参照 表 中 ， 称 之 为 维 表 。 维 表 使 我 们 可 以 改变 维 的 属性 
而 不 改变 根本 的 数据 。 

敬告 : 当 为 一 个 OLAP 系统 设计 维度 的 时 候 不 要 找 捷径 ， 确 实 存在 一 些 数据 集 市 

的 框架 ， 一 个 不 牢靠 的 框架 不 会 持续 很 长 时 间 。 

维 表 包 含 许多 不 同 的 属性 ， 描 述 该 维 的 每 个 值 。 例 如 ， 一 个 详细 的 地 理 维 可 能 由 邮政 编 
码 创建 ， 它 包括 关于 邮政 编码 的 几 十 个 概要 变量 。 这 些 属 性 能 够 用 于 过 滤 〈(“ 有 多 少 客户 在 
高 收入 地 区 ?"”)。 这 些 值 被 存储 在 维 表 而 不 是 事实 表 中 ， 因 为 它们 不 能 正确 地 聚集 。 如 果 在 
一 个 邮政 编码 区 域 中 有 三 个 商店 ， 一 个 邮政 编码 的 人 口 事实 将 会 求 和 三 次 一 总 人 口 乘 以 3。 

通常 ， 维 表 以 维 的 最 新 数值 更 新 。 这 样 ， 商 店 维 可 能 包括 当前 的 一 组 商店 以 及 关于 商店 
的 信息 ， 如 布局 、 面 积 大 小 、 地 址 、 经 理 姓名 等 。 然 而 ， 所 有 这 些 可 能 按时 间 发 生变 化 。 这 
样 的 维 被 称 为 缓慢 变化 维 ， 它 对 于 数据 控 气 有 特殊 的 意义 ， 因 为 数据 控 气 意图 重建 精确 的 历 
史 。 缓 慢 变 化 维 超出 了 本 书 的 范围 ， 有 兴趣 的 读者 可 以 翻阅 Ralph Kimball 的 书 。 

4. 一 致 维 

正如 前 面 提 到 的 ， 数 据 仓 库 系 统 通常 包含 多 重 OLAP 立方 体 。OLAP 的 某 些 功能 就 是 从 
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共享 不 同 立 方 体 维 的 实践 中 发 现 的 。 这 些 共 享 维 称 为 一 致 维 ， 如 图 15-8 所 示 。 它 们 有 助 于 
确保 通过 不 同系 统 报告 的 商业 结果 应 用 一 组 相同 的 基本 商业 规则 。 


财务 视图 


优 
一 -一 有 周 数 一 > 
不 同 的 用 户 有 不 同 的 数据 视图 ， 
但 他 们 通常 共享 维 
， 时 间 维 分 层 要 求 镍 盖 天 、 周 、 
寺 间 一 一 一 一 一 
本 月 及 季度 
商店 一 ~  __w 地 区 分 层 开始 于 店铺 层次 ， 然 
后 包括 主要 都 市 及 州 
产品 一 一 一 产品 分 层 包括 部 门 
客户 -一 一 客户 分 层 可 能 包括 家 庭 


图 15-8 ”对 数据 的 不 同 视图 通常 共享 共同 的 维 ， 发 现 共同 的 维 及 其 
基本 单元 对 于 使 数据 仓库 在 整个 组 织 良 好 地 运转 是 非常 重要 的 


一 致 维 的 一 个 典型 例子 是 日 历 维 ， 它 追踪 每 天 的 属性 。 日 历 维 非常 重要 ， 它 应 该 是 每 个 
数据 仓库 的 一 部 分 。 然 而 ， 数 据 仓库 的 不 同 成 份 可 能 要 求 不 同 的 特征 ， 例 如 ， 一 个 跨国 公司 
可 能 包括 不 同 国家 的 几 套 节假日 ， 因 此 应 该 有 “美国 节 假 月 "、“ 大 不 列 颠 联合 王国 节假日 ”、 
“法 国 节假日 ”等 标记 ， 而 不 是 总 体 的 假日 标记 。 在 许多 国家 1 月 1 日 是 节日 ， 然 而 ，7 月 4 
日 在 美国 是 最 重要 的 节日 。 

创建 OLAP 系统 面临 的 挑战 之 一 是 设计 一 致 维 ， 以 便 它们 适用 于 一 系列 广泛 的 应 用 。 针 对 
某 些 目的 ， 地 理 位 置 可 能 用 城市 和 州 来 描述 最 好 ; 而 有 些 则 可 以 用 国家 来 描述 ; 另 一 些 用 人 口 
普查 区 域 描述 ; 还 有 一 些 通过 邮政 编码 来 描述 。 不 幸 的 是 ， 这 四 种 描述 方法 不 完全 一 致 ， 因 为 
在 邮政 编码 中 可 能 有 几 个 小 镇 ， 在 纽约 市 有 5 个 郡 。 多 维 建 模 可 以 帮助 解决 这 种 冲突 。 


15.3.2 星 形 模式 


使 用 被 称 为 星 形 模式 的 非 标准 化 数据 结构 ， 很 容易 在 关系 数据 库 中 存储 立方 体 ， 这 是 由 
OLAP 的 一 位 宗师 Ralph Kimball 设计 的 。 星 形 模式 的 一 个 优点 是 它 可 以 使 用 标准 数据 库 技 
术 实 现 OLAP 的 强大 功能 。 

星 形 模式 始 于 一 个 对 应 于 商业 事实 的 中 心事 实 表 。 这 些 可 能 处 于 交易 层次 〈 对 于 一 个 事 
件 立 方 体 )， 尽 管 它们 常常 是 较 低层 次 的 交易 概要 。 对 于 零售 业务 ， 中 心事 实 表 可 能 包含 每 
种 产品 在 每 个 商店 的 日 销售 (shop-SKU-time) 概要 。 对 于 一 个 信用 卡 公 司 ， 事 实 表 和 包含 的 


免费 领取 更 多 资源 V: 3446034937 


338 雯 15 嫩 


行 对 应 于 每 个 客户 的 每 一 笔 交 易 ， 或 者 是 基于 产品 〈 基 于 卡 的 类 型 及 信用 限制 ) 、 客 户 片段 、 
商业 类 型 、 客 户 地 理 位 置 及 月 份 的 花费 概要 。 对 于 一 个 对 修理 历史 感 兴趣 的 柴油 机 制造 商 ， 
它 可 能 包含 对 每 台 机 器 的 每 次 修理 ， 或 在 每 个 商店 按照 修理 类 型 给 出 的 每 日 修理 概要 。 

在 中 心事 实 表 中 的 每 一 行 包 含 使 它 惟一 的 一 些 键 的 组 合 。 这 些 键 称 为 维 (dimension)。 
中 心事 实 表 也 有 其 他 列 ， 通 常 包含 对 应 于 每 一 行 的 数值 型 信息 ， 如 交易 总 量 、 交 易 数 目 等 。 
与 每 一 个 维 关联 的 辅助 表格 称 为 维 表 (dimension table)， 它 包含 对 应 于 维 的 特别 信息 。 例 
如 ， 日 期 的 维 表 可 能 详细 说 明 某 个 特定 的 日 期 是 周 几 、 月 份 、 年 份 以 及 是 否 节假日 。 

在 图 表 中 ， 维 表 与 中 心事 实 表 相 连 ， 结 果 在 形状 上 很 像 一 个 星星 ， 如 图 15-9 所 示 。 
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图 15-9 ” 星 形 模式 看 上 去 就 是 这 样 。 维 表 从 概念 上 看 是 嵌 套 ,. 一 个 给 定 的 维 可 能 有 多 个 维 表 


中 全 虹 
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事实 上 ， 星 形 模式 不 可 能 有 效 地 回答 所 有 用 户 的 问题 ， 因 为 中 心事 实 表 太 大 。 在 这 种 情 
况 下 ，OLAP 系统 在 不 同 层 上 引 人 了 概要 表 以 方便 查询 响应 。 关 系数 据 库 生 产 商 已 经 对 星 形 
模式 提供 了 越 来 越 多 的 支持 。 利 用 一 个 典型 的 结构 ， 对 中 心事 实 表 的 任何 查询 将 需要 多 次 连 
接 回 维 表 。 通 过 应 用 标准 索引 、 创 造 性 的 增强 索引 技术 ， 关 系数 据 库 能 够 相当 好 地 处 理 这 些 
查询 。 

15.3.3 OOLAP 和 数据 挖掘 


数据 挖掘 是 为 决策 支持 目的 而 对 数据 进行 的 成 功 开发 。 在 第 2 章 中 描述 的 关于 数据 挖掘 
的 良性 循环 ， 提 本 我 们 成 功 更 多 地 依赖 于 先进 的 模式 识别 算法 。 数 据 挖掘 进程 〈data mining 
process) 需要 给 人 们 提供 反馈 ， 豆 励 使 用 从 数据 挖掘 中 得 到 的 信息 以 改善 商业 过 程 。 数 据 挖 
掘进 程 可 以 使 人 们 提供 输入 ， 以 观测 和 假设 的 形式 ， 预 测 什么 结果 是 重要 的 及 如 何 应 用 那些 
结果 。 

从 数据 开发 的 更 大 范围 来 看 ，OLAP 作为 一 种 拓宽 数据 访问 受众 的 手段 ， 很 明显 扮演 了 
一 个 重要 的 角色 。 以 前 基于 经 验 和 猜测 制定 的 决策 ， 现 在 可 以 基于 数据 和 数据 中 的 模式 。 异 
常 点 和 离 群 值 (outlier) 可 以 被 识别 出 来 以 用 于 深 人 研究 和 进一步 建 模 ， 有 时 候 需 要 使 用 最 
复杂 的 数据 挖掘 技术 。 例 如 ， 通 过 使 用 OLAP 工具 ， 某 个 用 户 可 能 发 现在 某 周 的 一 个 特定 
时 间 某 个 特定 项 目 销售 得 更 好 。 这 可 能 导致 使 用 购物 篮 分 析 发 现 其 他 可 能 与 该 物品 同时 购买 
的 物品 的 研究 ， 购 物 篮 分 析 可 能 对 于 观察 到 的 行为 给 出 一 个 解释 一 一 更 多 信息 和 利用 这 些 信 
息 的 更 多 机 会 。 

数据 挖掘 和 OLAP 之 间 有 其 他 方面 的 协同 作用 。 在 第 6 章 中 讨论 的 决策 树 的 特点 之 一 
是 ， 识 别 在 数据 中 与 特殊 结果 有 关 的 最 具 信 息 价值 特征 的 能 力 。 就 是 说 ， 如 果 一 个 决策 树 是 
为 了 预测 流失 而 创建 ， 那 么 树 的 上 层 将 会 有 最 重要 流失 预测 器 的 特征 。 这 些 预 训 器 可 能 是 使 
用 OLAP 工具 时 维 的 一 个 好 选择 。 这 种 分 析 可 以 帮助 建立 更 好 、 更 有 用 的 立方 体 。 建 立 立 
方 体 时 ， 另 外 的 问题 是 确定 如 何 使 连续 的 维 离散 。 决 策 树 的 结 点 能 够 帮助 确定 一 个 连续 值 的 
最 好 断 点 。 这 一 信息 能 够 局 人 OLAP 工具 以 改善 维 。 

神经 网 络 遇 到 的 问题 之 一 是 难于 理解 结果 。 当 把 它们 用 于 非 定向 数据 挖掘 时 更 是 如 此 ， 
就 像 使 用 SOM 网 络 来 探测 聚 类 那样 。SOM 可 以 识别 聚 类 ， 但 不 能 解释 聚 类 的 意义 。 

这 时 ，OLAP 就 可 以 过 来 救援 ! 数据 现在 能 够 利用 预测 的 聚 类 增强 ， 也 可 利用 关于 聚 类 
的 其 他 信息 ， 如 人 口 统计 学 、 购 买 历史 等 。 这 对 于 立方 体 是 一 个 很 好 的 应 用 。 使 用 OLAP 
把 关于 能 的 信息 作为 一 个 维 ， 使 最 终 用 户 可 以 探测 徐 ， 确 定 辨别 它们 的 特征 。 用 于 OLAP 
立方 体 的 维 应 该 包括 进入 SOM 神经 网 络 的 输入 ， 还 有 角 标 识 符 以 及 其 他 可 能 的 描述 性 变 
量 。 这 里 存在 一 个 数据 转化 的 技巧 问题 ， 因 为 神经 网 络 需要 缩放 到 - 1 和 ! 之 间 的 连续 值 ， 
而 OLAP 工具 则 更 喜欢 离散 值 。 对 于 初始 离散 数据 ， 这 没有 问题 ; 但 对 于 连续 数值 ， 各 种 
分 箱 (binning) 技术 解决 了 这 个 问题 。 

就 像 这些 例 子 中 显示 的 那样 ，OLAP 和 数据 挖掘 相互 补充 ， 通 过 定义 合适 的 维 (更 进 一 
步 ， 通 过 确定 在 维 中 如 何 断 开 连 续 值 )， 数 据 挖掘 能 够 帮助 建立 更 好 的 立方 体 。OLAP 提供 
了 一 个 强大 的 可 视 化 能 力 ， 以 帮助 用 户 更 好 地 理解 数据 挖 据 结果 ， 如 聚 类 和 神经 网 络 。 联 合 
使 用 OLAP 和 数据 挖掘 ， 二 者 彼此 补充 了 它们 的 实力 ， 为 数据 开发 提供 了 更 多 的 机 会 。 
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15.4 数据 挖掘 在 哪里 切入 数据 仓库 


数据 挖掘 在 数据 仓库 环境 中 扮演 着 很 重要 的 角色 。 数 据 仓库 的 初始 回报 来 自己 有 的 自动 
化 过 程 ， 如 使 报告 在 线 ， 给 已 有 的 应 用 软件 一 组 清洁 的 数据 源 等 。 最 大 的 回报 是 改善 数据 的 
访问 ， 这 能 够 数 励 改革 和 创新 一 一 这 些 都 源 于 观察 和 分 析 数 据 的 新 方式 。 这 就 是 数据 挖掘 所 
扮演 的 角色 一 一 提供 工具 以 改善 理解 ， 并 基于 对 数据 的 观察 激励 创新 。 

一 个 好 的 数据 仓库 环境 可 以 作为 数据 挖掘 的 良好 催化 剂 ， 这 两 项 技术 可 以 一 起 使 用 : 

“ 数据 挖掘 在 大 量 数据 基础 上 昔 壮 成 长 ， 数 据 越 详细 越 好 一 一 而 数据 来 自 数据 仓库 。 

“ 数据 挖掘 在 清洁 和 一 致 的 数据 中 苗 壮 成 长 一 一 利用 了 数据 清理 工具 。 

“数据 仓库 环境 支持 假设 测试 ， 简 化 了 测量 所 采取 行动 的 效果 的 工作 

的 良性 循环 。 

“ 可 升级 硬件 和 关系 数据 库 软 件 能 够 分 担 数据 挖掘 的 数据 处 理 部 分 。 

然而 ， 数 据 挖掘 的 观点 与 数据 仓库 的 观点 存在 差别 。 规 范 化 的 数据 仓库 能 够 引入 时 间 惟 
来 存储 数据 ， 但 是 进行 时 间 相 关 的 处 理 是 非常 困难 的 一 一 比如 确定 什么 事件 正好 会 在 其 他 感 
兴趣 的 事件 之 前 发 生 。OLAP 引入 了 一 个 时 间 轴 ， 数 据 挖 掘 把 这 种 思想 扩展 得 更 远 ， 甚 至 可 
以 考虑 “之 前 ”和 “之 后 ”的 概念 。 数 据 挖 据 从 数据 ( 即 “ 之 前 ”) 中 学 习 ， 目 的 是 把 学 到 
的 知识 用 于 未 来 〈 即 “之 后 ”)。 正 是 由 于 这 个 原因 ， 数 据 挖掘 经 常 给 数据 仓库 带 来 巨大 的 工 
作 量 。 它 们 属于 互补 的 技术 ， 正 如 稍 后 的 几 小 节 会 讲 到 的 ， 它 们 互相 支持 。 


15.4.1 大 量 数 据 


数据 分 析 的 传统 方法 一 般 从 减 小 数据 量 的 规模 开始 ,通常 有 三 种 方法 : 汇总 详细 的 交易 
数据 ， 从 数据 中 取出 一 个 子 集 ， 以 及 只 观察 某 些 属性 。 减 小 数据 量 大 小 的 原因 在 于 ， 我 们 可 
以 在 现 有 的 软 硬 件 系 统 土 分析 数据 。 当 这 些 问 题 得 到 合理 处 理 以 后 ， 统 计 学 的 定律 就 可 以 引 
和 ， 从 而 有 可 能 选 出 一 个 行为 表现 大 致 接近 于 其 他 数据 的 样本 。 

另 一 方面 ， 数 据 挖 据 寻 找 数据 的 趋势 ， 寻 找 有 价值 的 异常 点 。 它 常常 试图 回答 传统 的 统计 分 析 
提出 的 不 同类 型 的 问题 ， 如 “什么 样 的 产品 是 这 一 客户 下 次 最 可 能 购买 的 ?” 即 使 可 能 使 用 一 个 数据 
子 集 设 计 模型 ， 也 必须 配置 该 模型 ， 为 所 有 客户 打分 ， 这 是 一 个 计算 量 非常 大 的 过 程 。 

幸运 的 是 ， 数 据 挖 气 算 法 常常 能 够 利用 大 量 的 数据 。 当 寻找 模式 以 识别 稀有 事件 时 一 一 
如 不 得 不 勾 销 客户 ， 因 为 他 们 没有 付款 一 一 有 大 量 数 据 就 保证 有 足够 的 数据 进行 分 析 。 一 个 
数据 的 子 集 从 统计 学 角度 看 总 体 上 可 能 是 恰当 的 ， 但 当 你 试图 把 它 分 解 为 其 他 片段 〈 按 地 
区 、 产 品 、 客 户 片 段 ) 时 ， 要 给 出 有 统计 意义 的 结果 ， 数 据 就 有 可 能 太 少 。 

数据 挖掘 算法 能 够 利用 大 量 数据 。 例 如 决策 树 ， 即 使 当 每 一 条 记录 中 有 数 十 或 数 百 个 字 
段 时 ， 它 也 可 以 很 好 地 工作 。 链 接 分 析 要 求 用 一 个 完整 的 数据 集 创 建 图 。 神 经 网 络 能 够 在 同 
一 时 间 训 练 数 百 万 记录 。 这 些 算法 常常 运用 详细 交易 的 汇总 来 工作 (特别 是 在 客户 层次 上 )， 
汇总 结果 可 能 由 这 次 运行 到 下 次 运行 发 生 改 变 。 预 先 创建 汇总 和 丢弃 交易 数据 将 把 你 锁定 到 
一 个 商业 视图 上 。 当 然 ， 应 用 这 种 汇总 的 第 一 个 结果 经 常 导 致 需要 对 它们 进行 某 些 变化 。 


15.4.2 一致 的 、 清 洁 的 数据 
数据 挖掘 算法 常常 需要 用 到 吉 字 节 (1 吉 字 节 = 109 字 节 ) 的 数据 ， 这 些 数据 可 能 来 自 


支持 数据 挖 据 
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几 个 不 同 的 源 。 在 寻找 可 操作 的 信息 时 ， 大 部 分 工作 实际 上 是 把 数据 结合 在 一 起 一 一 通常 数 
据 挖 据 项 目的 时 间 有 80% 或 更 多 是 用 于 把 数据 汇集 到 一 起 一 一 特别 是 当 没 有 数据 仓库 可 用 
的 时 候 。 此 后 的 问题 ， 如 匹配 账号 、 翻 译 代码 、 分 拆 等 ， 会 进一步 拖延 分 析 。 发 现 重要 的 模 
式 通常 是 一 个 交互 过 程 ， 需 要 返回 到 数据 以 获得 另外 的 数据 元 素 。 最 终 ， 当 发 现 重要 模式 的 
时 候 ， 通 常 需要 在 最 近 可 用 的 数据 上 重复 这 个 过 程 。 

一 个 设计 良好 及 构造 良好 的 数据 仓库 能 够 帮助 解决 这 些 问 题 。 当 数据 被 加 载 到 数据 仓库 
时 ， 数 据 被 清理 一 次 。 字 段 的 意义 被 明确 定义 且 可 以 通过 元 数据 利用 。 将 新 数据 整合 到 分 析 
中 就 像 通过 元 数据 找 出 什么 数据 可 用 以 及 从 数据 仓库 重新 找 回 一 样 容易 。 一 个 特别 的 分 析 能 
够 重新 运用 于 更 近 的 数据 ， 因 为 数据 仓库 一 直 保 持 最 新 。 最 终结 果 是 数据 更 清洁 、 更 好 
用 一 一 这 使 分 析 师 可 以 花 更 多 的 时 间 应 用 功能 强大 的 工具 和 洞察 力 而 不 是 移 走 数据 和 压缩 数 
据 量 。 


15.4.3 假设 测试 和 测量 


数据 仓库 推动 了 数据 挖掘 的 两 个 其 他 领域 。 假 设 测试 是 验证 数据 中 关于 数据 模式 的 基于 
经 验 的 猜测 。 热 带 色彩 在 佛罗里达 确实 比 在 别处 更 好 销售 吗 ? 人 们 倾向 于 在 晚饭 后 打 长 途 电 
话 吗 ? 在 餐馆 的 信用 卡 用户 确 实 是 高 端 客户 吗 ? 所 有 这 些 问 题 都 可 以 非常 容易 地 在 适当 的 关 
系数 据 库 中 作为 查询 表达 出 来 。 拥 有 可 利用 的 数据 使 提问 及 快速 发 现 答案 成 为 可 能 。 

提示 :; 测试 假设 和 思想 的 能 力 是 数据 挖掘 一 个 非常 重要 的 方面 。 通 过 将 数据 结合 在 

一 起 ， 数 据 仓 库 能 够 深入 地 回答 复杂 的 问题 。 一 个 要 注意 的 问题 是 这 样 的 查询 运行 

代价 昂贵 ， 从 而 陷入 杀手 查询 类 。 

测量 是 另 一 个 已 证 明 数 据 仓库 非常 有 价值 的 应 用 领域 。 通 常 ， 当 进行 市 场 营销 、 产 品 改 
进 等 工作 的 时 候 ， 达 到 成 功 的 程度 只 有 一 个 有 限 的 反馈 。 数 据 仓 库 可 以 看 到 结果 并 发 现 相 关 
的 影响 。 其 他 产品 销售 得 到 改进 了 吗 ? 客户 流失 是 否 有 所 增加 ? 打 到 客户 服务 中 心 的 电话 减 
少 了 吗 ? 等 等 。 有 可 用 的 数据 使 得 理解 一 个 行动 的 结果 成 为 可 能 ， 不 管 行动 是 通过 数据 挖 据 
结果 激励 的 还 是 其 他 事情 激励 的 。 

从 测量 的 角度 说 ， 特 别 有 价 值 的 是 不 同市 场 营销 行为 对 中 长 期 客户 关系 的 影响 。 通 常 ， 
市 场 营销 活动 是 以 响应 率 来 测量 的 。 然 而 响应 率 只 是 人 们 感 兴趣 的 一 个 方面 ， 仅 仅 是 其 中 一 
个 。 客 户 的 中 长 期 行为 也 是 令 人 感 兴趣 的 内 容 之 一 。 获 取 活 动 带 来 好 的 客户 了 吗 ? 或 者 新 获 
得 的 客户 在 没 付款 之 前 已 经 离开 了 ? 提升 销售 活动 坚持 住 了 吗 ? 或 者 客户 又 回 到 了 老 产 品 ? 
测量 可 以 使 某 个 企业 从 它 的 失误 中 吸取 教训 ， 并 走向 成 功 。 


15.4.4 可 升级 硬件 及 RDBMS 支持 


数据 挖掘 和 数据 仓库 之 间 的 最 终 协作 是 在 系统 层次 上 ， 同 样 的 可 升级 硬件 和 软件 使 得 储 
存 和 查询 大 型 数据 库 成 为 可 能 ， 这 为 分 析 数 据 提 供 了 一 个 好 的 系统 。 第 17 章 讨论 创建 客户 
特征 标识 ， 通 常 创 建 特 征 的 最 好 地 方 是 在 中 央 储存 库 ， 或 者 ， 如 果 没 有 的 话 ， 可 在 数据 量 相 
似 的 数据 集 市 中 。 

进一步 利用 功能 强大 的 计算 机 的 优势 ， 并 行 运行 数据 挖掘 算法 仍然 是 一 个 问题 。 这 通常 
没有 必要 ， 因 为 实际 上 建立 模型 只 代表 了 数据 挖掘 时 间 投 入 的 一 小 部 分 一 一 准备 数据 及 理解 
结果 更 加 重要 。 一 些 数据 库 ， 像 Oracle 和 微软 的 SQL Server， 正 不 断 为 数据 挖掘 算 法 提供 支 


免费 领取 更 多 资源 V: 3446034937 


342 朝 15 售 


持 ， 这 使 得 这 样 的 算法 能 够 并 行 地 运行 。 
15.5 小 结 


数据 仓库 不 是 一 个 系统 ， 而 是 一 个 对 于 数据 控 掘 和 数据 分 析 工 作 非 常 有 用 的 方法 。 从 数 
据 挖 掘 的 观点 看 ， 最 重要 的 功能 是 再 创造 历史 的 准确 快照 的 能 力 。 另 一 个 非常 重要 的 方面 是 
支持 特定 报告 。 为 了 从 数据 中 学 习 ， 你 需要 知道 究竟 发 生 了 什么 。 

典型 的 数据 仓库 系统 包含 下 列 部 分 : 

。 源 系统 提供 到 数据 仓库 的 输入 ; 

。 提 取 、 转 化 和 加 载 工具 清理 数据 并 应 用 商业 规则 ， 以 便 新 数据 与 历史 数据 相 一 致 ; 

。 中 央 储 存 库 是 一 个 特别 为 记录 的 决策 支持 系统 设计 的 关系 数据 库 ; 

。 数 据 集 市 为 具有 不 同 需求 的 不 同 用户 提 供 界 面 ; 

*。 元 数据 储存 库 告 知 用 户 和 开发 人 员 数 据 仓 库 内 是 什么 。 

数据 仓库 面临 的 挑战 之 一 是 必须 储存 大 量 的 数据 ， 特 别 是 当 目标 是 保持 所 有 客户 的 交互 
数据 的 时 候 。 幸 运 的 是 ， 计 算 机 有 这 个 能 力 ， 问 题 只 是 更 多 的 预算 而 不 是 可 能 性 。 关 系数 据 
库 也 能 够 利用 最 强 有 力 的 硬件 一 一 并 行 计算 机 。 

联机 分 析 处 理 (OLAP) 是 数据 仓库 的 一 个 强 有 力 的 部 分 。OLAP 工具 擅长 处 理 汇总 数 
据 ， 人 允许 用 户 一 次 沿 一 维 或 几 维 汇总 信息 。 因 为 这 些 系统 是 为 用 户 报表 优化 而 设计 的 ， 通 常 
它们 的 交互 响应 时 间 少 于 $ 秒 。 

任何 设计 良好 的 OLAP 系统 有 一 个 时 间 维 ， 这 使 得 它 观 察 按 时 间 变 化 的 趋势 时 非常 有 
用 。 而 在 一 个 规范 化 的 数据 仓库 中 完成 同样 的 一 件 事 情 需 要 非常 复杂 的 查询 ， 而 且 容 易 出 
错 。 更 有 用 的 是 ，OLAP 系统 将 允许 用 户 对 所 有 报告 深入 到 详细 数据 中 。 这 种 能 力 确保 所 有 
数据 进入 立方 体 中 ， 也 给 用 户 提供 了 发 现 可 能 没有 出 现在 维 中 的 重要 模式 的 能 力 。 

就 像 我 们 贯穿 本 章 所 指出 的 那样 ，OLAP 补充 了 数据 控 据 ， 但 不 是 数据 挖掘 的 替代 。 它 
提供 了 对 数据 的 更 好 理解 ， 且 为 OLAP 开发 的 维 能 够 使 数据 挖掘 结 果 更 加 具有 可 操作 性 。 
然而 ，OLAP 不 能 在 数据 中 自动 发 现 模式 。 

OLAP 是 向 最 终 用 户 提供 高 级 报告 需求 的 一 种 强 有 力 的 信息 发 布 方式 。 它 提供 了 这 样 的 
能 力 ， 即 让 更 多 的 用 户 基于 数据 进行 决策 ， 而 不 是 依靠 预感 、 猜 测 和 个 人 经 验 。OLAP 补充 
了 像 聚 类 这 样 的 非 定 向 数据 挖掘 技术 。OLAP 能 够 提供 在 识别 出 的 焦 中 找到 商业 价值 所 需要 
的 洞察 力 。 它 也 提供 一 个 好 的 可 视 化 工具 ， 可 用 于 其 他 方法 ， 如 决策 树 及 基于 存储 的 推理 。 

数据 仓库 与 数据 挖掘 不 是 一 回 事 ， 然 而 ， 它 们 相互 补充 ， 数 据 挖 掘 应 用 往往 是 数据 仓库 
解决 方案 的 一 部 分 。 
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第 16 章 ， 构 造 数 据 挖 掘 环境 


在 一 座 大 块 冰糖 山上 ， 
有 一 个 美丽 而 快乐 的 桃花 源 
灌木 从 中 生长 着 衣服 、 食 物 和 金 银 。 
人 们 喜欢 每 晚 露天 而 宿 ， 
所 有 房车 都 是 空 
每 天 阳光 普照 。 
鸟 儿 和 守 蜂 快乐 飞翔 ， 
香烟 满 树 ， 
柠 样 秆 成 泉 ， 
知 更 岛 歌 喝 ， 
在 一 座 大 块 冰糖 山上 。 


20 世纪 的 流浪 者 有 这 样 的 乌托邦 式 幻想 ，21 世纪 的 数据 挖掘 者 为 什么 不 也 幻想 一 下 呢 ? 
对 我 们 来 说 ， 这 种 幻想 就 是 一 家 公司 将 客户 放 在 运作 的 中 心 ， 并 通过 长 期 的 客户 价值 结果 测 
量 其 行为 。 在 这 一 完美 的 组 织 中 ， 商 业 决 策 是 基于 从 大 量 客户 数据 中 提取 的 可 靠 信息 。 不 必 
说 ， 数 据 挖掘 者 一 一 拥有 将 所 有 数据 转化 为 公司 运行 所 需要 信息 的 技巧 的 人 们 一 一 会 赢得 最 
高 的 尊重 。 

本 章 从 一 个 真正 的 以 客户 为 中 心 的 〈customer-centric) 乌托邦 式 幻想 组 织 开 始 ， 在 那里 
有 理想 的 数据 挖掘 环境 ， 产 生 的 信息 能 够 作为 决策 的 基础 。 了 解 一 个 理想 的 数据 挖掘 环境 是 
什么 样 的 ， 有 益 于 建立 更 真实 的 近期 目标 。 然 后 ， 本 章 继 续 在 数据 挖掘 环境 的 各 种 组 成 中 寻 
找 一 一 人 员 、 数 据 挖掘 的 基础 设施 、 数 据 控 掘 软件 本 身 。 尽 管 不 可 能 达到 乌托邦 幻想 所 有 的 
元 素 ， 但 可 以 利用 这 种 约 想 帮助 创建 一 个 适合 数据 挖掘 工作 的 环境 。 


16.1 以 客户 为 中 心 的 组 织 


尽管 大 家 都 说 客户 就 是 上 帝 ， 但 在 大 多 数 公司 中 并 没有 把 客户 当成 上 帝 。 一 个 原因 是 大 多 数 
商业 不 是 围绕 客户 组 织 ， 而 是 围绕 产品 组 织 。 例 如 ， 超 市 长 期 以 来 能 够 追踪 成 千 上 万 种 产品 的 详 
细 库 存 信 息 ， 以 便 保 持 货架 供应 ， 并 且 能 够 在 任何 项 目 上 计算 利润 额 。 但 直到 最 近 ， 这 些 商 店 对 
于 每 位 客户 知道 他 们 的 姓名 ， 也 不 知道 每 月 他 们 来 几 次 ， 他 们 倾向 于 在 每 天 的 
何 时 购物 ， 是 否 使 用 商家 的 优惠 券 ， 是 否 有 孩子 ， 在 这 个 商店 中 某 个 家 庭 购 货 的 百分比 是 多 少 ， 
他 们 住 得 多 近 一 一 什么 也 不 知道 。 我 们 无 意 对 超市 进行 挑 吻 ， 银 行 围绕 借贷 组 织 ， 电 话 公 司 围绕 
交换 机 组 织 ， 航 班 围绕 运转 组 织 ， 没 有 人 知道 (或 关心 ) 客户 太 多 。 

在 所 有 这 些 行业 ， 技 术 的 发 展 使 他 们 可 能 把 焦点 转移 到 客户 。 这 样 的 转移 并 不 容易 ， 事 
实 上 ， 这 完全 是 一 场 革命 。 通 过 将 这 些 销售 点 (point-of-sale) 扫描 器 的 数据 与 忠诚 卡 计划 相 
结合 ， 杂 货 零 售 商 通过 一 些 努力 ， 能 够 知道 谁 购买 了 什么 及 他 们 何 时 购买 的 ， 哪 些 客户 对 价 
格 敏 感 ， 娜 些 喜 欢 尝试 新 产品 ， 哪 些 喜 欢 自制 面 点 ， 哪 些 更 喜欢 半成品 等 ; 电话 公司 能 够 断 
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定 谁 在 进行 商业 呼叫 ， 谁 主要 与 朋友 聊天 ;在线 音 乐 商店 能 够 向 顾客 推荐 个 性 化 的 新 音乐 。 

更 艰巨 的 挑战 是 能 够 有 效 地 利用 这 项 能 力 观 察 数据 中 的 客户 。 一 个 真正 以 客户 为 中 心 的 
组 织 会 很 愿意 继续 提供 无 利 可 图 的 服务 一 一 如 果 使 用 这 种 无 利润 服务 的 客户 在 其 他 领域 肯 花 
费 更 多 ， 就 可 以 在 总 体 上 增加 公司 的 收益 。 一 个 以 客户 为 中 心 的 公司 不 必 每 次 当 客 户 呼 人 时 
都 问 同样 的 问题 。 以 客户 为 中 心 的 公司 以 顾客 在 整个 生存 周期 中 产生 的 价值 来 评估 市 场 草 销 
活动 ， 而 不 是 初始 响应 率 。 

要 做 到 真正 的 以 客户 为 中 心意 味 着 要 改变 公司 文化 ， 改 变 从 上 层 管 理 者 到 客服 中 心 接线 
员 等 每 个 人 的 奖励 方式 。 只 要 每 一 条 生产 线 有 一 个 管理 者 的 薪水 与 产品 销售 的 数量 及 利润 挂 
钧 ， 该 公司 将 仍然 把 注意 力 集中 在 产品 上 而 不 是 客户 上 。 换 名 话说， 公司 雇佣 管理 人 员 关 注 
产品 ， 而 管理 员 做 了 他 们 该 作 的 工作 。 在 一 个 理想 的 以 客户 为 中 心 的 组 织 中 ， 每 个 人 都 因为 
增加 客户 价值 而 受到 奖励 ， 他 们 知道 这 需要 通过 与 每 个 客户 进行 交互 ， 而 且 应 该 具有 用 所 获 
得 的 知识 更 好 地 为 客户 服务 的 能 力 。 结 果 ， 公 司 记录 了 与 客户 的 每 一 次 交互 ， 并 保留 了 这 些 
交互 广泛 的 历史 记录 。 


16.2 理想 的 数据 挖掘 环境 


理想 的 数据 挖 据 环 境 是 一 个 能 够 正确 评价 信息 价值 的 组 织 。 把 从 许多 收集 原始 数据 的 地 
方 得 到 的 客户 数据 汇集 在 一 起 ， 并 把 它们 处 理 成 适合 数据 挖掘 的 形式 是 一 个 困难 且 耗 资 巨大 
的 过 程 。 它 只 可 能 发 生 在 知道 数据 一 旦 使 用 得 当 会 多 么 有 价值 的 一 个 组 织 中。 信息 就 是 力 
量 。 一 个 会 学 习 的 组 织 崇 尚 的 是 进步 和 稳定 的 改善 ， 这 样 的 组 织 希 望 而 且 会 为 准确 的 信息 投 
资 。 记 住 ， 信 息 的 制造 者 常常 有 真正 的 权力 去 决策 什么 样 的 数据 在 什么 时 候 是 可 用 的 ， 他 们 
不 是 只 决定 取舍 的 数据 仓库 的 被 动 消费 者 ， 他 们 有 能 力 决定 什么 数据 是 可 用 的 ， 虽 然 收集 这 
样 的 数据 可 能 意味 着 要 改变 操作 程序 。 


16.2.1 确定 什么 数据 可 用 的 能 力 


在 理想 的 数据 挖掘 环境 中 ， 数 据 分 析 的 重要 性 是 被 认可 的 ， 数 据 分 析 的 结果 在 整个 组 织 
中 是 共享 的 。 从 事 市 场 营销 的 人 们 从 本 能 上 把 每 一 项 营销 活动 看 做 一 个 对 照 实验 ， 这 甚至 意 
味 着 在 一 个 有 良好 预期 效应 的 营销 活动 中 不 包括 某 些 客户 ， 因 为 那些 客户 是 一 个 对 照 群 组 
(control group) 的 一 部 分 。 操 作 系统 的 设计 者 本 能 地 筷 踪 所 有 客户 事务 ， 包 括 那 些 不 需 账户 
支付 的 事务 ， 如 客户 服务 查询 、 银 行 账号 结算 查询 或 访问 公司 Web 站 点 的 特殊 部 分 。 每 一 
个 人 都 期 望 当 涉及 同一 位 客户 时 ， 不 同 渠 道 的 客户 交互 能 够 被 识别 ， 即 使 某 些 交 互 发 生 在 
ATM， 某 些 发 生 在 银行 分 行 ， 某 些 通 过 电话 ， 某 些 是 通过 Web。 

在 这 样 的 环境 中 ， 电 话 公司 的 一 位 分 析 员 在 试图 了 解 无 线 电话 服务 质量 及 客户 流失 之 间 
的 关系 时 ， 将 毫 不 费力 地 得 到 放弃 呼叫 和 其 他 故障 等 方面 的 客户 层次 数据 。 分 析 员 也 能 容易 
地 看 到 客户 的 购买 历史 ， 即 使 一 些 购买 发 生 在 商店 里 ， 一 些 通 过 邮寄 订购 目录 ， 而 有 一些 通 
过 Web。 对 客户 服务 中 心 的 每 一 次 呼叫 ， 同 样 可 以 容易 地 确定 呼叫 的 持续 时 间 及 呼叫 是 否 
通过 人 工 台 转 接 或 通过 IVR (交互 式 语音 应 答 ) ， 在 后 一 种 情况 下 ， 通 过 语音 提示 ， 客 户 走 
过 什么 路 径 。 最 佳 情况 是 ， 当 需要 的 数据 不 太 可 用 时 ， 就 会 有 一 组 人 为 它 工作 而 使 它 可 用 ， 
这 可 能 意味 着 需要 重新 设计 一 份 申请 表格 ， 重 新 改编 自动 交换 机 -或 者 简单 地 说 ， 在 最 初 
就 加 载 正确 的 数据 。 
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16.2.2 将 数据 转化 为 可 操作 信息 的 技巧 


理想 的 数据 挖掘 环 境 是 由 那些 在 数据 处 理 方面 技能 高 超 的 人 组 成 的 ， 数 据 挖 气 只 是 通过 
他 们 对 于 商业 运作 方式 及 今后 目标 的 深刻 理解 完成 的 。 一 个 数据 挖掘 小 组 包括 数据 库 专 家 、 
程序 设计 者 、 统 计 学 专家 、 数 据 挖 气 者 和 商业 分 析 师 ， 所 有 人 一 起 工作 确保 商业 决策 以 准确 
的 信息 为 基础 。 该 团队 的 人 们 有 沟通 技巧 ， 能 够 把 他 们 获知 的 所 有 内 容 传达 到 组 织 中 的 恰当 
部 门 ， 无 论 是 市 场 车 销 、 和 运作、 管理 或 决策 部 门 。 


16.2.3 所 有 必需 的 工具 


理想 的 数据 控 握 环境 包括 足够 的 计算 能 力 及 数据 库 资源 ， 以 支持 最 详细 层次 的 客户 交易 
数据 的 分 析 ， 它 包括 能 处 理 所 有 数据 和 由 此 创立 模型 集 (model set) 的 软件 。 当 然 ， 它 还 包 
含 一 系列 丰富 的 数据 挖掘 软件 ， 以 便 应 用 第 5 一 13 章 讲 述 的 所 有 技术 。 


16.3 返回 现实 世界 


我 们 从 未 见 过 上 面 描述 的 理想 数据 挖掘 环境 ， 读 者 不 必 吃 惊 。 然 而 ， 我 们 已 经 合作 的 许 
多 公司 正在 往 这 个 正确 的 方向 上 努力 ， 这 些 公司 正在 采取 措施 设法 把 自己 转变 成 以 客户 为 中 
必 的 组 织 。 他 们 正在 建立 数据 挖 据 组 ， 收 集 来 自 操作 系统 的 客户 数据 ， 创 建 单一 客户 视图 ， 
其 中 许多 已 经 初 见 成 效 ， 在 收获 实质 上 的 利益 。 


16.3.1 建立 以 客户 为 中 心 的 组 织 


本 章 首 的 乌托邦 式 幻想 的 第 一 个 组 成 部 分 ， 是 一 个 真正 以 客户 为 中 心 的 组 织 。 说 到 数据 ， 
建立 以 客户 为 中 心 的 组 织 的 最 困难 工作 之 一 就 是 建立 单个 客户 视图 ， 在 整个 企业 共享 它 ， 指 导 
每 次 客户 交互 。 与 该 挑战 相对 应 的 另 一 方面 是 ， 通 过 与 客户 交流 的 所 有 渠道 ， 建 立 公司 及 其 品 
牌 的 一 个 形象 ， 这 些 渠 道 包括 零售 商店 、 独 立 经 销 商 、Web 站 点 、 客 服 中 心 、 定 向 市 场 营 销 
等 。 其 目标 不 仅 是 做 出 更 多 明智 的 决策 ， 而 且 以 可 测量 的 方式 改进 客户 体验 。 换 名 话说 ， 客 户 
策略 有 分 析 和 操作 两 种 成 分 。 本 书 更 关心 分 析 成 分 ， 但 两 者 对 成 功 都 很 重要 。 

提示 : 建立 以 客户 为 中 心 的 组 织 需 要 同时 使 用 包含 分 析 和 操作 成 分 的 策略 。 尽 管 本 

书 讨论 的 是 有 关 分 析 的 成 分 ， 但 操作 成 分 同样 重要 。 

建立 以 客户 为 中 心 的 组 织 需要 把 来 自 多 种 来 源 的 客户 信息 集中 到 单个 数据 仓库 中 ， 同 时 
还 要 有 一 系列 共同 的 定义 和 容易 理解 的 商业 过 程 一 起 来 描述 数据 的 来 源 。 这 种 组 合 使 我 们 可 
能 定义 一 系列 可 用 于 所 有 组 的 客户 度量 及 商业 规则 ,来 监控 业务 发 展 及 测量 市 场 条 件 变化 和 
新 措施 的 影响 。 

当然 ， 客 户 信息 的 集中 储存 就 是 上 一 章 中 描述 的 数据 仓库 。 如 图 16-1 所 示 ， 在 操作 系 
统 和 数据 仓库 之 间 有 双向 交流 。 操 作 系统 提供 进入 数据 仓库 的 原始 数据 ， 而 仓库 反 过 来 为 操 
作 系 统 提 供 客户 评分 、 决 策 规则 、 客 户 片段 定义 及 行动 触发 器 。 例 如 ， 一 个 零售 Web 站 点 
的 操作 系统 捕获 了 所 有 的 客户 订单 ， 然 后 这 些 订 单 在 一 个 数据 仓库 中 被 汇总 。 使 用 来 自 数据 
仓库 的 数据 ， 建 立 关联 规则 (association rule) ， 用 于 产生 交叉 销售 建议 ， 这 些 建 议 再 返回 到 
操作 系统 中 。 最 终结 果 是 : 客户 来 到 网 站 除 订 购 了 一 条 裙子 外 ， 还 另外 订购 了 几 件 紧 身 衣 。 
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图 16-1 一 个 以 客户 为 中 心 的 组 织 需 要 集中 的 客户 数据 


16.3.2 创建 单个 客户 视图 


公司 的 每 个 部 门 应 该 能 够 访问 客户 的 单个 共享 视图 ， 呈 现 给 客户 的 也 应 该 是 公司 的 单一 
形象 。 从 实践 的 角度 来 说 ， 这 意味 着 共享 单个 客户 的 收益 模型 、 一 个 单独 的 默认 支付 风险 模 
型 、 单 个 客户 的 忠诚 度 模 型 ， 以 及 一 些 术 语 的 共享 定义 ， 诸 如 客户 启动 、 新 客户 、 忠 诚 客户 
和 有 价值 的 客户 。 

对 于 这 些 术 语 ， 不 同 组 有 不 同 的 定义 是 很 自然 的 。 在 一 个 出 版 公司 中 ， 关 于 谁 是 最 有 价 
值 的 客户 问题 上 ， 发 行 部 门 和 广告 营销 部 门 有 不 同 的 观点 ， 因 为 支付 最 高 订阅 价格 的 人 不 一 
定 是 对 登 广 告 者 最 感 兴趣 的 人 。 解 决 方法 是 给 每 个 客户 分 配 一 个 广告 价值 和 一 个 订购 价值 ， 
使 用 像 第 4 章 中 介绍 的 广告 适应 度 的 思想 。 

在 另外 一 家 公司 ， 财 务 的 风险 管理 组 认为 客户 在 最 初 4 个 月 的 保有 期 内 是 “新 ”的 ， 在 
这 个 初始 试用 期 内 ， 任 何 推迟 的 付款 被 密切 追踪 。 然 而 ， 客 户 忠诚 组 认为 客户 在 最 初 3 个 月 
是 “新 ”的 。 在 这 个 欢迎 期 内 ， 客 户 受 到 额外 的 照顾 。 那 么 ， 它 到 底 属于 哪 一 种 : 初期 和 谐 
的 新 关系 还 是 试用 阶段 ? 如 果 在 公司 内 部 没有 统一 ， 顾 客 接收 到 的 将 是 混合 信息 。 

对 于 有 几 种 不 同业 务 的 公司 ， 问 题 会 更 微妙 。 同 一 个 公司 可 能 提供 Internet 服务 及 电话 
服务 。 当 然 ， 对 于 这 两 项 服务 会 保持 不 同 的 支付 方式 、 客 户 服务 和 操作 系统 。 此 外 ， 如 果 
ISP (因特网 服务 提供 商 ) 是 新 近 被 电话 公司 并 购 的 ， 公 司 对 现 有 电话 客户 和 最 近 获 得 的 因 
特 网 客户 之 间 的 重 至 情况 可 能 一 无 所 知 。 


16.3.3 定义 以 客户 为 中 心 的 度量 标准 


1929 年 9 月 24 日 ,美国 空军 中 尉 James 也 . Doolittle 创造 了 历史 ， 他 通过 “ 盲 飞 ” 证 
明 ， 利 用 最 新 发 明 的 仪器 如 陀螺 地 平 仪 、 方 向 回转 仪 、 气 压 高 度 计 等 ， 即 使 把 驾驶 座舱 用 帆 
布 引擎 罩 盖 起 来 ， 也 可 以 飞行 一 段 精确 的 路 程 。 在 陀螺 地 平 仪 发 明之 前 ， 飞 行 员 飞 和 云层 或 
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雾 蜂 中 时 ， 常 会 迷失 飞行 方向 。 现 在 ， 得 益 于 驾驶 员 座 舱 中 那些 仪表 的 帮助 ， 我 们 可 以 在 
James 中 尉 都 会 出 现 问题 的 恶劣 天 气 中 ， 从 容 地 咀 鄙 椒盐 卷 饼 ， 喝 着 哪 啡 茶 ， 修 改 电子 数据 
表 (spreadsheet)。 好 的 商业 度量 标准 就 像 是 保持 一 个 大 企业 航向 正确 那么 重要 。 

商业 度量 标准 是 告诉 管理 者 在 哪个 方向 上 移动 哪个 控制 杆 的 信号 。 选 择 正 确 的 度量 标准 
是 重要 的 ， 因 为 该 企业 趋向 于 变 为 测量 标准 指出 的 方向 。 如 果 一 个 企业 按照 所 拥有 的 客户 数 
量 考核 自身 ， 则 该 商业 将 趋向 于 签约 新 客户 而 不 考虑 保有 期 或 潜在 客户 的 未 来 收益 前 景 。 按 
照 市 场 占有 率 考 核 自身 的 企业 ， 将 趋向 于 以 其 他 的 目标 〈 如 收益 ) 为 代价 增加 市 场 占 有 率 。 
希望 成 为 以 客户 为 中 心 的 公司 所 面临 的 挑战 是 提出 现实 的 以 客户 为 中 心 的 度量 标准 。 说 公司 
的 旧 标 是 增加 客户 忠诚 度 ， 这 上 听 起 来 很 棒 ， 但 很 难 提出 一 个 好 方法 对 客户 质量 进行 测量 。 仪 
仅 持续 一 段 较 长 时 间 是 忠诚 度 的 标志 吗 ? 或 者 忠诚 度 应 当 定义 为 能 够 抵抗 来 自 竞争 者 的 优惠 
服务 ?9 如 果 是 后 者 ， 如 何 测 量 它 呢 ? 

即使 表面 上 简单 的 度量 标准 ， 如 流失 或 收益 ， 也 可 能 难以 准确 说 明 什 么 时 候 会 发 生 流 失 : 

“电话 服务 实际 不 活跃 的 那 一 天 ? 

。 客户 最 初 表达 不 活路 意图 的 那 一 天 ? 

“ 不 活 妈 后 的 第 一 个 付 账 周期 的 后 期 ? 

“ 当 电 话 号 码 发 放 给 新 客户 的 那个 日 子 ? 

十 述 的 每 一 个 定义 在 电话 业务 的 不 同 部 分 中 都 扮 演 一 个 角色 ， 对 于 有 合同 的 手机 用 户 ， 
可 能 不 存在 这 些 事情 。 哪 一 种 流失 事件 应 该 被 看 做 是 自发 的 ? 让 我 们 来 看 一 位 客户 的 例子 ， 
他 为 了 抗议 恶劣 服务 而 拒绝 付款 ， 最 后 被 迫切 断 信号 ， 这 种 流失 是 自发 流失 还 是 强制 流失 ? 
那些 目 发 停止 又 没有 支付 最 终 欠 款 的 用 户 又 如 何 呢 ? 这 些 问题 没有 一 个 合适 的 答案 ， 它 们 确 
实 瞳 示 着 定义 客户 关系 的 微妙 之 处 。 

对 于 收益 ， 哪 些 客户 被 认为 是 有 收益 的 在 很 大 程度 上 取决 于 成 本 是 如 何 被 分 派 的 。 


16.3.4 收集 正确 的 数据 


一 旦 正确 定义 了 像 患 诚 度 、 收 益 及 流失 等 ， 下 一 个 阶段 是 确定 需要 的 数据 以 便 正确 地 计 
算 它 们 。 这 不 同 于 应 用 任何 碰巧 可 用 的 数据 简单 地 给 出 近似 定义 。 记 住 ， 在 理想 的 数据 挖掘 
环境 中 ， 数 据 挖 据 组 有 能 力 决 定 什 么 数据 可 用 ! 

管理 商业 所 需要 的 信息 应 该 能 够 驱动 添加 新 表 和 字段 到 数据 仓库 中 。 例 如 ， 一 个 以 客户 为 
中 心 的 公司 应 该 能 够 说 出 娜 一 个 客户 是 有 利 可 图 的 。 在 许多 公司 中 这 是 不 可 能 的 ， 因 为 没有 足 
够 可 用 的 信息 能 够 敏感 地 分 配 在 客户 层次 上 的 花费 。 我 们 的 客户 之 一 ， 一 家 无 线 电话 公司 ， 解 
决 这 个 问题 的 方法 是 ， 通 过 编辑 一 个 要 求 回答 的 问题 列表 ， 决 定 针对 一 个 特定 客户 提供 多 少 服 
务 经 费 。 然 后 他 们 确定 回答 这 些 问 题 需要 娜 些 数据 ， 并 建立 一 个 方案 来 收集 这 些 数据 。 

这 些 问 题 很 多 ， 其 中 包含 了 下 列 各 项 ; 

"客户 每 年 呼叫 客服 中 心 多 少 次 ? 

" 客户 通过 在 线 、 支 票 还 是 信用 卡 支付 账单 ? 

“客户 花费 在 漫游 上 的 时 间 上 比例 是 多 少 ? 

“客户 在 哪些 外 部 网 络 上 漫游 ? 

"这些 网 络 的 签 购 成 本 是 多 少 ? 

“客户 对 客户 服务 中 心 的 呼叫 是 由 TVR 还 是 由 人 工 接线 员 处 理 ? 
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回答 这 些 成 本 相关 的 问题 需要 来 自 呼叫 中 心 系统 、 账 号 系统 及 财务 系统 的 数据 。 围 绕 其 
他 重要 度量 标准 的 内 容 揭示 了 对 呼叫 明细 数据 、 人 口 统计 学 数据 、 信 用 数据 及 Web 使 用 数 
据 的 需要 。 


16.3.5 从 客户 交互 到 学 习 机 会 


以 客户 为 中 心 的 组 织 与 它 的 客户 保持 一 种 学 习 关 系 ， 每 一 个 与 客户 的 交互 都 是 学 习 的 机 
会 ， 是 数据 挖掘 者 和 公司 内 部 各 种 面向 客户 的 组 之 间 进 行 良好 交流 时 能 够 被 抓 住 的 机 会 。 

公司 发 生 的 几乎 任何 行为 都 会 影响 客户 一 一 价格 的 变化 、 新 产品 的 引入 、 市 场 营销 活动 ， 
都 能 被 设计 ， 所 以 它 也 是 一 个 向 客户 进行 更 多 学 习 的 实践 机 会 。 这 些 实践 的 结果 能 够 找到 使 数 
据 进入 数据 仓库 的 方法 ， 在 那里 可 以 进行 分 析 。 通 常 ， 行 动 本 身 是 由 数据 挖掘 提出 来 的 。 

例如 ， 一 家 无 线 电 话 公 司 的 数据 控 气 结果 显示 ， 由 于 延迟 支付 而 出 现 的 暂停 服务 是 自发 
流失 (voluntary churn) 和 强制 流失 (involuntary churn) 两 者 共同 的 预测 器 。 延 迟 支付 是 一 
个 不 支付 的 预测 器 并 不 让 人 了 吃惊， 但 延迟 支付 (或 公司 对 于 延迟 支付 者 的 处 理 ) 是 一 个 自发 
流失 的 预测 器 ， 则 似乎 需要 更 深入 的 调查 。 

这 个 观察 导致 这 样 的 假说 ， 暂 停 服 务 降 低 了 客户 对 公司 的 忠诚 度 ， 而 且 ， 当 有 机 会 出 现 
时 ， 他 们 很 可 能 会 把 业务 迁 到 其 他 地 方 。 信 用 卡 署 的 数据 清楚 地 表明 ， 一 些 延 迟 支 付 者 经 济 
上 有 能 力 支 付 他 们 的 电话 账单 。 这 提示 我 们 进行 一 项 实验 : 这 些 低 风险 客户 应 该 与 高 风险 客 
户 区 别 对 待 ， 在 终止 他 们 之 前 ， 应 该 对 他 们 的 不 良 行为 更 耐心 些 ， 使 用 比较 温和 的 方法 劝说 
他 们 付 账 。 一 个 对 照 实验 测试 了 这 一 方法 是 否 会 提高 客户 忠诚 度 而 不 必 让 呆账 提升 。 两 个 相 
似 的 低 风险 、 高 价值 客户 群 得 到 了 不 同 的 对 待 ， 一 个 被 作为 “商业 常规 ”处 理 ， 而 另 一 个 得 
到 了 比较 亲切 又 比较 温和 的 处 理 。 在 试验 期 结束 的 时 候 ， 基 于 保持 及 呆账 比较 这 两 个 组 ， 以 
便 决定 转换 到 新 处 理 方式 的 经 济 影 响 。 可 以 非常 上 骨 定 地 说 ， 亲 切 、 温 和 的 处 理 方式 对 转变 较 
低 风 险 的 客户 被 证 明 是 值得 的 一 一 增加 付款 比率 ， 还 稍微 增加 了 客户 的 长 期 保有 期 。 


16.3.6 挖掘 客户 数据 


当 每 个 客户 的 交互 产生 数据 的 时 候 ， 数 据 挖掘 就 有 了 无 数 的 机 会 。 可 以 挖掘 购买 模式 和 
使 用 模式 生成 客户 片段 ; 挖掘 响应 数据 以 改进 未 来 活动 的 目标 ; 多 重 响应 模型 能 够 被 结合 
成 最 佳 未 来 促销 模型 ;生存 分 析 可 用 于 预测 未 来 客户 的 流失 ; 流失 模型 能 够 发 现 客户 流失 的 
风险 ; 客户 价值 模型 能 够 识别 值得 保持 的 客户 。 

当然 ， 所 有 这 些 要 求 增设 一 个 数据 挖 据 组 以 及 支持 它 的 基础 结构 。 


16.4 数据 挖掘 组 


数据 挖 气 组 专门 负责 建立 模型 ， 使 用 数据 了 解 关 于 客户 的 知识 一 一 与 引导 市 场 营销 工 
作 、 设 计 新 产品 等 相反 。 也 就 是 说 ， 这 个 组 有 技术 职责 而 不 是 商业 职责 。 

在 公司 层次 上 ， 我 们 已 经 看 到 数据 挖 气 组 可 以 有 几 种 不 同 的 组 织 结构 ， 

“ 在 公司 外 作为 一 个 外 包 行 为 ; 

“作为 IT 的 一 部 分 ; 

"作为 市 场 营销 、 客 户 关系 管理 或 财务 组 织 部 分 ; 

“作为 一 个 跨 学 科 的 小 组 而 成 员 仍然 属于 各 自 的 部 门 。 
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上 述 每 一 个 结构 各 有 其 优 缺 点 ， 下 面 将 分 别 进行 讨论 。 
16.4.1 外 包 数 据 挖掘 


公司 有 多 种 理由 考虑 使 用 外 包 数 据 控 掘 。 对 有 些 情况 ， 数 据 挖掘 只 是 偶尔 需要 ， 因 此 不 
值得 投资 建 一 个 内 部 小 组 ; 另 一 些 情 况 是 ， 数 据 控 掘 是 一 个 当前 正在 成 长 的 需要 ， 但 所 需要 
的 技术 似乎 与 公司 现 有 技术 不 同 ， 在 公司 中 白手 起 家 创建 这 种 专用 技术 会 面临 巨大 的 挑战 。 
还 有 一 些 公司 ， 它 们 的 客户 数据 主体 寄存 在 一 个 外 部 的 卖主 那里 ， 感 觉 分 析 过 程 应 该 在 数据 
所 在 地 进行 。 

1. 外 包 偶 然 建 模 

一 些 公司 认为 ， 他 们 对 建立 模型 及 使 用 数据 了 解 客 户 没什么 需求 。 这 些 公司 通常 分 为 以 
下 两 种 类 型 : 第 一 种 是 公司 客户 很 少 ， 要 么 是 因为 公司 太 小 ， 要 么 是 因为 每 个 客户 太 大 。 例 
如 ， 一 个 典型 银行 的 私人 银行 业务 组 可 能 只 会 为 数 千 客户 服务 ， 而 账号 代理 人 了 解 他 们 的 客 
户 。 在 这 样 的 环境 下 ， 数 据 挖掘 可 能 是 多 余 的 ， 因 为 客户 关系 是 如 此 密切 。 

不 过 ， 即 使 在 这 个 环境 中 数据 挖掘 也 能 扮演 一 个 角色 。 特 别 地 ， 数 据 控 掘 能 够 使 我 们 了 
解 最 佳 实践 并 传播 它们 。 例 如 ， 私 人 银行 中 的 一 些 职 员 可 能 以 某 些 方式 〈 如 保留 客户 ， 鼓 励 
客户 推荐 朋友 、 家 庭 成 员 、 同 事 等 ) 把 工作 做 得 更 好 ， 这 些 职员 可 能 有 最 佳 实践 方法 需要 在 
整个 组 织 中 传播 。 

提示 : 如 果 公 司 拥有 与 客户 维持 深入 及 长 期 关系 的 尽职 职员 ， 则 数据 挖 据 可 能 是 不 

必要 的 。 

对 于 在 新 兴 市 场 中 的 快速 成 长 的 公司 ， 数 据 挖掘 似乎 也 不 那么 重要 。 在 这 种 情况 下 ， 客 
户 获 取 (customer acquisition) 驱动 商业 的 发 展 ， 广 告 (而 不 是 定向 市 场 营 销 ) 是 吸引 新 客 
户 的 主要 方法 。 数 据 挖掘 在 广告 上 的 应 用 是 有 限 的 ， 而 且 在 这 一 时 期 的 发 展 中 ， 公 司 尚未 把 
重心 集中 在 客户 关系 管理 和 客户 保持 上 。 对 于 他 们 所 做 的 有 限 的 定向 市 场 营销 ， 外 包 建 模 通 
常 就 已 经 足够 了 。 

无 线 通 信 、 有 线 电 视 及 互联 网 服务 提供 商 全 部 经 过 了 指数 生长 期 ， 只 不 过 这 种 增长 最 近 
已 经 结束 ， 市 场 已 经 成 熟 〈 而 在 此 之 前 ， 有 线 电话 、 人 寿 保险 、 目 录 销 售 及 信用 卡 经 历 了 相 
似 的 周期 )。 在 初始 成 长 期 ， 了 解 客 户 可 能 不 值得 投资 一 一 加 设 一 个 发 射 塔 、 交 换 机 或 其 他 
类 似 的 东西 都 可 以 提供 较 好 的 回报 。 最 后 ， 业 务 与 客户 基础 增长 到 一 个 点 ， 些 时 了 解 客 户 具 
有 越 来 越 大 的 重要 性 。 根 据 我 们 的 经 验 ， 公 司 最 好 尽早 朝 着 了 解 客户 的 方向 开始 ， 而 不 是 等 
到 需求 达到 临界 点 时 才 开 始 。 

2. 外 包 正 在 进行 的 数据 挖掘 

即使 当 一 家 公司 已 经 认识 到 数据 挖掘 的 必要 性 ， 仍 然 有 可 能 外 包 数 据 控 掘 。 当 公司 建立 
在 以 客户 获取 为 基础 的 时 候 尤 其 如 此 。 在 美国 ， 信 用 卡 公 司 及 家 庭 数据 供应 者 很 乐意 提供 建 
模 ， 利 用 它们 出 售 的 数据 进行 增值 服务 。 也 有 直接 的 营销 公司 负责 从 邮寄 列表 到 结果 的 每 件 
事情 一 一 包括 对 客户 的 实际 产品 递送 。 这 些 公司 时 常 提 供 外 包 数 据 挖 气 。 

外 包 对 于 公司 经 济 是 有 利 的 ， 问 题 是 对 客户 的 深入 了 解 也 是 外 包 性 的 。 一 家 仰赖 外 包 客 
户 分 析 的 公司 存在 这 样 的 风险 : 在 公司 和 厂商 之 间 对 客户 的 理解 可 能 会 有 遗失 。 

例如 ， 一 家 公司 利用 直接 邮寄 作为 获取 客户 的 重要 手段 ， 而 且 把 直接 邮寄 响应 建 模 
(response modeling) 工 作 外 包 给 邮寄 列表 厂商 进行 。 在 大 约 2 年 的 过 程 中 ， 公 司 曾 经 有 几 个 
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直接 邮寄 管理 人 员 ， 而 且 对 这 一 渠道 的 关注 在 减少 。 没 有 人 认识 到 ， 直 接 邮 寄 一 直 在 增加 获 
取 量 ， 但 这 种 获取 却 算 到 了 其 他 恕 道 的 头 上 。 直 接 邮 寄 的 表格 可 能 已 被 填写 ， 然 后 通过 邮件 
寄 回 ， 这 种 情况 下 新 的 获取 是 计算 到 直接 邮寄 账 上 的 。 但 这 些 邮 件 也 包含 了 公司 的 网 址 和 一 
个 免费 的 电话 号 码 。 许 多 收 到 直接 邮寄 的 潜在 顾客 发 现 通过 电话 或 在 Web 上 回应 更 方便 ， 
而 通常 忘记 提供 用 于 将 其 识别 为 直接 邮寄 洪 在 顾客 的 专门 代码 ， 随 着 时 间 的 过 去 ， 归 因 于 直 
接 邮 寄 的 响应 减少 ， 从 而 用 于 直接 邮寄 的 预算 也 减少 。 直 到 最 后 ， 当 减少 直接 邮寄 导致 其 他 
流通 渠道 的 响应 减少 的 时 候 ， 公 司 才 认 识 到 忽视 这 一 响应 结果 已 经 导致 他 们 做 出 了 一 个 低 于 
最 佳 效 果 的 商业 决策 。 


16.4.2 内 部 数据 挖掘 


建 模 过 程 产 生 的 不 止 是 模型 和 得 分 ， 也 产生 洞察 力 ， 这 些 深 入 了 解 通常 来 自 数据 探 调 和 
数据 准备 阶段 ， 这 是 数据 挖掘 过 程 的 一 个 重要 部 分 。 正 由 于 这 个 原因 ， 我 们 认为 任何 正在 出 
现 数据 挖掘 需求 的 公司 应 该 发 展 内 部 的 数据 挖掘 组 ， 以 便 在 公司 内 部 探究 数据 。 

1. 建立 一 个 多 学 科 交 叉 的 数据 挖掘 组 

一 旦 做 出 决策 ， 在 公司 内 部 产生 对 客户 的 理解 ， 问 题 就 出 现 了 。 在 一 些 公司 中 ， 数 据 挖 
据 组 没有 永久 的 场所 。 组 成 员 聚 在 一 起 ， 在 本 职工 作 之 外 完成 数据 挖掘 ， 本 质 上 看 ， 这 样 的 
安排 似乎 是 暂时 的 ， 且 通常 它 是 一 些 紧急 需求 〈 如 需要 了 解 突然 发 生 的 客户 违约 高 潮 ) 的 结 
果 。 当 这 样 的 一 个 组 存在 的 时 候 ， 可 能 是 非常 有 效 的 ， 但 是 不 可 能 持续 很 长 时 间 ， 因 为 一 旦 
有 新 的 任务 ， 这 些 成 员 就 会 被 召回 到 他 们 正常 的 工作 中 。 

2. 在 IT 组 织 中 建立 一 个 数据 挖 气 组 

一 个 可 能 的 场所 是 在 系统 组 中 ， 因 为 这 个 组 常常 负责 存储 客户 数据 且 运 行 面 向 客户 的 操 
作 系 统 。 因 为 数据 挖掘 组 是 关于 技术 的 ， 并 且 需 要 数据 的 存 取 和 强 有 力 的 软件 及 服务 器 ， 所 
以 I 组 织 似乎 是 一 个 很 自然 的 选择 。 事 实 上 ， 分 析 可 以 视 为 提供 数据 库 和 存 取 工 具 及 维护 
这 种 系统 的 进一步 延伸 。 

作为 IT 组 织 的 一 部 分 ， 还 有 这 样 的 优势 : 在 需要 的 时 候 ， 数 据 挖掘 组 能 够 接触 到 硬件 
和 数据 ， 因 为 IT 组 织 具 有 这 些 技 术 上 的 资源 和 对 数据 的 访问 权 。 此 外 ，IT 组 织 是 一 个 在 许 
多 企业 单位 拥有 客户 的 服务 组 织 。 事 实 上 ， 作 为 数据 挖 气 “客户 ”的 企业 单位 或 许 已 经 习惯 
于 仰赖 IT 组 织 给 出 的 数据 和 报告 。 

另 一 方面 ，IT 组 织 有 时 与 推动 客户 分 析 的 商业 问题 稍稍 有 点 距离 ， 因 为 对 商业 问题 轻 
微 的 误解 能 够 导致 无 用 的 结果 ， 所 以 让 来 自 企业 单位 的 人 紧密 地 参与 到 以 IT 人 为 基本 成 员 
的 数据 挖掘 计划 是 非常 重要 的 。 

3. 在 企业 单位 中 建立 一 个 数据 挖 据 组 

把 数据 控 气 组 与 存放 数据 和 计算 机 的 地 方 结合 在 一 起 的 另 一 种 方法 是 ， 把 它 与 要 解决 的 
问题 放 在 一 起 。 这 通常 指 的 是 市 场 营 销 组 、 客 户 关系 管理 组 或 财务 组 。 有 时 会 有 几 个 小 的 数 
据 控 气 组 ， 每 个 企业 单位 都 有 一 个 ， 一 个 在 财务 组 建立 信用 风险 模型 和 采集 模型 ， 一 个 在 市 
场 营 销 组 建立 响应 模型 ， 一 个 在 CRM 组 创建 交叉 销售 模型 及 自发 流失 模型 。 

这 一 方法 的 优点 和 缺点 正好 与 置 人 I 工 组 织 中 的 数据 挖掘 相反 。 企 业 单位 对 于 自身 的 商 
业 问 题 都 很 了 解 ， 但 可 能 仍 不 得 不 依赖 红 组 织 作为 数据 及 计算 处 理 源 。 虽 然 每 一 种 方法 都 
可 能 成 功 ， 但 是 总 的 来 说 ， 我 们 还 是 希望 数据 挖掘 被 置 于 企业 的 中 心 。 
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16.4.3 数据 挖 气 组 成 员 需 要 具备 的 条 件 


最 好 的 数据 控 气 组 通常 选择 复合 型 人 才 ， 因 为 数据 挖掘 作为 一 个 单独 的 活动 ， 存 在 的 时 
间 并 不 长 ， 只 有 少数 人 可 以 声明 接受 过 训练 ， 成 为 数据 挖掘 者 。 有 的 数据 控 掘 者 过 去 一 直 是 
物理 学 家 ， 有 的 过 去 是 地 质 学 家 ， 有 的 是 计算 机 科学 家 ， 有 的 过 去 是 销售 经 理 ， 有 的 是 语言 
学 家 ， 还 有 的 是 统计 学 家 。 

这 使 得 数据 挖掘 组 的 午餐 时 间 交 谈 非常 有 趣 ， 但 是 它 不 会 给 雇佣 经 理 提 供 更 多 的 指导 。 
使 好 的 数据 挖掘 者 胜 于 普通 人 的 要 素 是 很 难 教会 的 ， 也 不 会 自动 生成 ， 那 就 是 ;良好 的 直 
觉 ， 如 何 从 数据 中 巧妙 地 获取 信息 的 感觉 ， 以 及 自然 的 好 奇 心 。 

没有 任何 一 个 人 可 以 具备 完成 一 项 数据 挖掘 计划 需要 的 所 有 技能 。 在 他 们 之 中 ， 组 成 员 
应 沪 覆 盖 下 列 技能 方面 : 

。 数 据 库 技能 (SQL ， 如 果 数 据 存储 在 关系 数据 库 中 ); 

。 数 据 转换 和 编程 技能 (SAS，SPSS，S- Plus，PERL， 其 他 编程 语言 ，ETL 工具 ); 

。 统 计 学 ; 

。 机 器 学 习 技 能 ; 

。 相 关 行 业 知 识 ; 

。 数 据 可 视 化 技能 ; 

。 访 问 及 需求 收集 技能 ; 

。 展 示 、 写 作 和 沟通 技能 。 

一 个 新 成 立 的 数据 挖掘 组 应 该 包含 以 前 已 经 做 过 商业 数据 挖掘 的 人 一 一 最 好 是 在 相同 的 
行业 中 。 如 果 需 要 ， 这 个 专家 可 以 由 外 部 顾问 公司 提供 。 


16.5 数据 挖掘 基础 设施 


在 认为 数据 控 据 只 是 一 个 探索 性 活动 的 公司 中 ， 数 据 挖掘 可 以 在 几乎 没有 基础 设施 的 情 
况 下 完成 。 一 个 台式 机 工作 站 加 上 一 些 数据 挖掘 软件 以 及 对 企业 数据 库 的 访问 可 能 就 是 足够 
的 ， 然 而 ， 当 数据 挖掘 成 为 企业 的 核心 内 容 时 ， 数 据 控 掘 的 基础 设施 一 定 要 非常 地 强健 。 在 
这 些 公 司 中 ， 要 随时 利用 新 的 模型 得 分 更 新 客户 简 档 ， 这 种 更 新 或 者 是 定期 的 〈 如 按照 进度 
表 每 月 一 次 )， 或 者 是 在 某 些 情况 下 ， 对 每 一 次 的 新 交易 进行 更 新 。 它 已 经 成 为 数据 仓库 常 
规 生 产 过 程 的 一 部 分 。 数 据 挖掘 的 基础 设施 必须 在 发 展 模型 的 探索 领域 和 模型 被 评分 、 市 场 
营销 活动 在 进行 的 生产 领域 之 间 提 供 一 架 桥梁 。 
可 用 的 数据 挖掘 环境 一 定 能 够 支持 下 列 各 项 任务 : 
*。 从 许多 来 源 访问 数据 以 及 把 数据 汇集 在 一 起 成 为 一 个 数据 挖掘 模型 集中 的 客户 特征 标 
识 〈customer signature) 的 能 力 ; 
。 根 据 需 要 从 模型 库 中 使 用 已 经 创建 的 模型 给 客户 评分 的 能 力 ; 
。 按 时 间 处 理 数 以 百 计 模型 得 分 的 能 力 ; 
。 按 时 间 处 理 得 分 或 开发 出 的 数 以 百 计 模型 的 能 力 ; 
。 在 客户 保有 期 中 的 任何 一 点 上 重新 建立 客户 特征 标识 的 能 力 ， 比 如 一 次 购买 或 其 他 有 
趣事 件 恰 巧 发 生 之 前 ; 
* 追踪 模型 得 分 随时 间 变 化 的 能 力 ; 
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“给 数据 仓库 及 需要 它们 的 其 他 应 用 软件 发 布 得 分 、 规 则 及 其 他 数据 挖掘 结果 的 能 力 。 
数据 挖掘 的 基础 设施 从 逻辑 上 〈 通 常 实 体 上 也 是 ) 可 以 分 为 两 个 部 分 ， 支 持 两 个 完全 不 
同 的 活动 : 挖掘 及 评分 。 每 个 任务 表现 出 一 系列 不 同 的 需求 。 


16.5.1 挖掘 平台 


挖掘 平台 支持 数据 处 理 软 件 ， 也 支持 本 书 中 描述 的 具体 表达 数据 挖 气 技 术 的 数据 挖掘 软 
件 、 可 视 化 及 显示 软件 ， 以 及 能 够 使 模型 公布 环境 得 分 的 软件 。 

虽然 我 们 已 经 提 到 了 一 些 综合 性 问题 ， 下 面 这 些 方面 还 应 考虑 : 

“ 在 客户 /服务 器 的 分 层 中 ， 软 件 应 当 安装 在 哪里 ? 

“ 数据 挖掘 软件 需要 自己 的 硬件 平台 吗 ? 如 果 需 要 ， 它 会 在 各 种 混和 的 系统 中 引入 一 个 

新 的 操作 系统 吗 ? 

“为 了 与 软件 包 沟 通 ， 什 么 样 的 软件 将 被 安装 到 使 用 者 的 台式 机 上 ? 

。 需要 什么 样 的 附加 网 络 、SQL 网 关 及 中 介 软 件 ? 

“数据 挖掘 软件 为 报告 和 图 形 软件 包 提供 良好 的 接口 吗 ? 

挖掘 平台 的 目的 是 支持 数据 探测 、 挖 握 及 建 模 ， 系 统 构思 时 应 该 把 这 些 活 动 记 在 头脑 
中 ,包括 此 项 工作 需要 更 多 的 处 理 过 程 及 计算 能 力 这 一 事实 。 数 据 挖掘 软件 厂商 应 该 能 够 提 
供 关 于 适合 预期 的 数据 库 大 小 及 使 用 模式 的 数据 挖掘 平台 的 详细 说 明 。 


16.5.2 评分 平台 


在 挖掘 平台 中 发 展 起 来 的 评分 平台 模型 被 应 用 于 客户 记录 ， 以 便 创建 用 于 确定 未 来 措施 
的 得 分 。 通 常 ， 评 分 平台 可 能 就 是 客户 数据 库 本 身 ， 它 可 能 是 一 个 关系 数据 库 ， 运 行 于 并 行 
硬件 平台 上 。 

为 了 给 一 个 记录 评分 ， 该 记录 必须 包含 〈 或 者 评分 平台 必须 能 够 计算 出 ) 送 人 模型 的 相 
同 特征 。 这 些 模型 使 用 的 特征 很 少 是 未 加 工 的 数据 原始 形式 。 通 常 ， 新 的 特征 是 以 不 同 的 方 
式 结合 现 有 的 变量 创建 的 ， 例 如 取 其 中 一 个 对 另外 一 个 的 比 ， 并 进行 分 箱 、 求 和 及 求 平均 值 
等 。 无 论 进行 了 哪些 计算 ， 创 建 模型 时 所 使 用 的 特征 现在 一 定 完成 了 对 每 个 记录 给 出 得 分 的 
工作 。 因 为 可 能 有 数 以 亿 计 的 交易 记录 ， 如 何 完成 这 件 事 情 是 很 重要 的 。 当 数据 量 很 大 的 时 
候 ， 数 据 处 理 面临 的 挑战 也 很 大 。 

直到 得 分 被 放 人 一 个 易于 被 软件 存 取 的 客户 数据 库 ， 评 分 才 会 完成 。 这 个 得 分 常常 用 于 
在 营销 活动 中 选择 包括 哪些 客户 。 如 果 作 为 模型 输入 的 Web 日 志 、 呼 叫 明 细 或 销售 点 扫描 
器 数据 处 于 一 个 系统 的 固定 文件 中 ， 而 客户 营销 数据 库 归 在 另外 一 个 系统 上 ， 但 按照 不 同 的 
日 期 ， 这 两 个 库 都 是 准确 的 ， 这 可 能 也 是 数据 处 理 的 一 个 挑战 。 


16.5.3 ”一 个 产品 数据 挖 据 结 构 实 例 


对 于 常规 的 把 数据 挖 据 和 评分 整合 到 操作 环境 方面 ，Web 零售 比 大 多 数 产业 走 得 更 远 。 
许多 Web 零售 商 利用 每 一 次 交易 更 新 客户 简 档 ， 应 用 模型 得 分 确定 该 展示 什么 及 推荐 什么 。 
这 里 描述 的 结构 来 自 Blue Martini 公司 ， 该 公司 提供 为 挖 据 作 准备 的 零售 网 站 软件 。 它 提供 
了 数据 挖掘 如 何 成 为 公司 运转 的 组 成 部 分 的 例子 ， 这 个 例子 并 不 局 限于 Web 零售 商 ， 许 多 
公司 可 以 受益 于 一 个 相似 的 结构 。 
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1. 结构 概览 

Blue Martini 结构 被 设计 成 支持 市 场 营销 者 、 商 人 以 及 众多 数据 挖掘 者 的 不 同 需求 。 如 
图 16-2 所 示 ， 对 于 三 种 不 同类 型 的 用 户 ， 它 有 三 个 模块 。 对 于 商人 ， 这 个 结构 支持 多 重 产 
品 分 层 和 工具 ， 以 控制 收集 和 促销 。 对 于 市 场 营销 人 员 ， 有 进行 对 照 实验 (controlled exper- 
iment) 以 追踪 各 种 信息 及 市 场 规则 有 效 性 的 工具 。 对 于 数据 挖掘 者 ， 有 完整 的 建 模 软件 ， 
可 以 使 他 们 从 几 十 个 不 同 的 服务 器 和 应 用 程序 记录 通过 手工 处 理 来 创建 客户 特征 标识 的 工作 
中 解放 出 来 。 这 就 是 Ralph Kimball 和 Richard Merz 所 称 的 网 上 数据 仓库 ， 它 是 由 几 个 特殊 
目的 的 数据 集 市 以 不 同 的 方式 建立 的 。 所 有 仓库 都 使 用 了 共同 的 字段 定义 、 共 享 元 数据 库 。 


[ 历 
srxaex 


商业 数据 
定义 模块 


用 于 客户 交互 的 | 
OLIP 数据 库 


分 析 模 块 
用 于 挖掘 /| 用 于 报告 
的 客户 特 由 的 OLAP 
征 标识 数据 库 


图 16-2 ”Blue Martini 为 由 数据 挖掘 驱动 的 Web 霍 售 商 提供 了 一 个 IT 结构 的 好 例子 


Web 商店 的 客户 与 按照 需要 从 包含 产品 信息 和 页 面 模板 的 数据 库 生 成 的 页 面 进行 交互 。 
页 面 中 的 内 容 是 按 规则 生成 的 ， 这 些 规 则 中 有 些 是 由 管理 员 输 入 的 商业 规则 ， 另 一 些 则 是 自 
动 生成 的 ， 然 后 经 过 专业 销售 人 员 的 编辑 。 

由 一 个 数据 库 生 成 页 面 有 许多 优点 。 首 先 它 可 以 加 强 整个 Web 站 点 视觉 和 感觉 的 一 臻 
性 ， 这 样 的 标准 界面 帮助 客户 在 该 站 点 内 畅行 无 阻 。 使 用 数据 库 可 以 提高 全 局 性 变化 的 速 
度 ， 比 如 为 更 新 价格 进行 降价 促销 。 另 外 的 一 个 特点 是 以 不 同 的 语言 和 币 种 存储 模板 的 能 
力 。 因 此 ， 站 点 能 够 为 不 同 国家 的 用 户 定制 。 从 数据 挖 据 观 点 看 ， 最 主要 的 优点 是 所 有 的 客 
户 交 互 都 可 记录 到 数据 库 中 。 

用 户 交 互通 过 一 系列 数据 集 市 进行 管理 。 报 告 和 挖掘 处 于 客户 行为 数据 集 市 的 中 心 ， 它 
包括 来 自用 户 交互 、 产 品 和 商业 规则 等 数据 集 市 的 信息 。 从 交易 数据 创建 客户 特征 标识 所 需 
要 的 复杂 提取 与 逻辑 转换 工作 是 系统 的 一 部 分 一 一 这 简化 了 任何 一 个 曾经 尝试 处 理 Web 记 
录 以 获取 客户 信息 的 人 的 工作 。 

2. 客户 交互 模块 

这 一 结构 包含 所 需要 的 数据 库 和 软件 ， 以 支持 交易 、 客 户 交 互 、 报 告 和 挖掘 ， 也 支持 个 
性 化 的 以 客户 为 中 心 的 市 场 营销 。Blue Martini 公司 的 系统 有 三 个 主要 的 模块 ， 每 个 模块 有 
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自己 的 数据 集 市 。 这 些 资 源 库 保存 着 下 列 各 项 记录 

。 商 业 规 则 

。 客 户 及 来 宾 交 易 

。 客 户 行为 

客户 行为 数据 集 市 〈 如 图 16-2 所 示 ， 它 是 分 析 模 块 的 一 部 分 ) 由 来 自 客 户 交互 模块 的 
数据 作为 输入 ， 它 反 过 来 又 为 商业 数据 定义 模块 及 客户 交互 模块 提供 规则 。 

商品 交易 信息 如 产品 层级 、 分 类 (为 交易 目的 而 被 聚集 在 一 起 的 产品 族 ) 和 价格 列表 等 
保存 在 商业 规则 数据 集 市 中 ， 同 样 保存 在 其 中 的 还 有 如 Web 网 页 模板 、 图 像 、 声 音 和 视频 
片段 。 商 业 规 则 包括 问候 指定 客户 的 个 性 化 规则 、 促 销 规则 、 交 叉 销 售 规则 等 。 为 一 个 零售 
站 点 进行 数据 挖掘 的 工作 很 大 一 部 分 是 用 于 产生 这 些 规则 。 

客户 交易 模块 是 系统 通过 处 理 所 有 客户 交易 而 直接 接触 客户 的 部 分 。 客 户 交 易 模块 负责 
维持 用 户 的 生存 期 及 环境 。 这 一 模块 实现 了 实际 的 Web 商店 ， 并 且 收 集 以 后 分 析 可 能 用 到 
的 任何 数据 。 客 户 交 易 数 据 集 市 记录 的 商业 事件 示例 如 下 ; 

。 客 户 把 一 个 项 目 加 入 到 购物 篮 中 ; 

。 客 户 开始 付 账 过 程 ; 

。 客 户 完成 付 账 过 程 ; 

。 交 叉 销 售 规则 被 触发 ， 给 出 推荐 商品 ; 

。 紧 接着 是 被 推荐 物品 的 链接 。 

客户 交互 模块 可 以 通过 加 入 对 照 群 组 和 保持 多 重 规则 的 方法 来 支持 市 场 营销 实验 。 它 有 
其 服务 对 象 的 详细 知识 ， 能 追踪 没有 被 Web 服务 器 记录 的 许多 事情 。 客 户 交互 模块 收集 的 
数据 使 我 们 可 以 观察 产品 和 客户 随时 间 变 化 的 情况 。 

3. 分 析 模 块 

支持 客户 交互 模块 的 数据 库 ， 像 大 多 数 的 在 线 交 易 处 理 系 统一 样 ， 是 一 个 设计 用 于 支持 
快速 交易 过 程 的 关系 数据 库 。 专 门 用 于 分 析 模 块 的 数据 必须 被 提取 并 转换 为 支持 挖掘 及 报告 
的 适当 结构 。 数 据 挖掘 要求 有 一 个 固定 的 特征 表格 ， 其 中 对 每 个 待 研 究 的 客户 或 项 目 有 -一行 
信息 。 这 意味 着 要 求 有 某 些 变 体 ， 它 们 收 乱 了 产品 分 层 ， 以 至 于 会 出 现 这 样 的 情况 ， 比 如 ， 
同一 项 交易 可 能 产生 一 个 标记 表明 该 客户 购买 了 法 国 酒 ， 产 生 另 一 个 标记 说 他 〈 或 她 ) 购买 
了 一 种 产 自 Burgundy 的 酒 ， 而 第 三 个 标记 则 可 能 指出 该 酒 来 自 Burgundy 的 Beaujolais 区 。 
其 他 数据 必须 从 包含 每 位 客户 多 重 交易 记录 的 订货 档案 、 账 单 档案 及 购物 时 间 段 中 积累 得 
到 。 由 此 得 到 的 典型 数值 包括 按 种 类 计 的 全 部 花费 、 平 均 订购 数 、 该 客户 的 平均 订购 和 均值 
平均 订购 之 间 的 差 ， 以 及 客户 自 上 次 购买 至 今 的 天 数 。 

报告 由 一 个 多 维 的 数据 库 实 现 ， 该 数据 库 允 许 在 不 同 层 次 回溯 查询 。 数 据 挖 气 及 OLAP 
都 是 分 析 模 块 的 一 部 分 ， 尽 管 它们 回答 的 是 不 同类 型 的 问题 。OLAP 查询 通常 用 来 回答 如 下 
问题 : 

*。 销量 最 好 的 产品 是 什么 ? 

。 销 量 最 差 的 产品 是 什么 ? 

。 浏 览 最 多 的 是 娜 个 页 面 ? 

。 按 照 商标 名 计 ， 变 换 速 度 怎样 ? 

“按照 访问 计数 ， 指 向 最 多 的 网 址 是 邬 一 些 ? 
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。 按照 销售 总 额 计 ， 指 向 最 多 的 网 址 是 哪 一 些 ? 

。 有 多 少 客户 抛弃 了 购物 篮 ? 

数据 挖 握 用 于 回答 更 复杂 的 问题 ， 比 如 ; 

“大 宗 买 家 的 特征 是 什么 ? 该 用 户 适 合 这 个 简 档 吗 ? 

“ 应 该 给 这 位 客户 提供 什么 样 的 促销 手段 ? 

。 这 个 客户 在 1 个 月 内 再 回来 购买 的 可 能 性 有 多 大 ? 

"什么 样 的 客户 是 我 们 应 该 担心 的 ， 因 为 他 们 最 近 没 有 访问 本 站 点 ? 

“ 什么 样 的 产品 与 花 钱 最 多 的 客户 相 联系 ? 

“什么 样 的 产品 正 带 动 着 其 他 什么 产品 的 销售 ? 

在 图 16-2 中 ， 标 有 “建立 数据 仓库 ”的 箭头 连接 客户 交互 模块 与 分 析 模 块 ， 代 表 在 数 
据 挖掘 或 报告 真正 完成 之 前 必须 进行 的 所 有 转换 。 另 外 多 出 的 两 个 箭头 标记 为 “展开 结果 ”， 
显示 了 分 析 模 块 的 输出 结果 ， 反 馈 回 商业 数据 定义 模块 和 客户 交互 模块 。 而 另外 一 个 箭头 标 
记 为 “阶段 数据 ”， 显 示 了 商业 规则 如 何 插 人 到 客户 交互 模型 的 商业 定义 模块 中 。 

这 一 系统 结构 最 吸引 人 的 是 它 驱 动 数据 控 据 良性 循环 的 方式 。 它 允许 将 数据 挖 据 发 现 的 
新 知识 直接 反馈 到 与 客户 交互 的 系统 中 。 


16.6 ”数据 挖 气 软 件 


从 本 书 的 第 1 版 问世 以 来 ， 数 据 挖掘 领域 方法 的 最 大 改变 之 一 就 是 ， 数 据 挖掘 软件 产品 
变 成 熟 了 。 强 大 的 功能 、 可 用 性 及 可 扩展 性 都 有 了 很 大 的 提高 。 可 能 有 所 下 降 的 就 是 数据 控 
掘 软件 商 数量 ， 因 为 小 作坊 式 的 软件 公司 已 经 被 更 大 、 更 让 人 接受 的 公司 挤 跨 了 。 正 如 本 书 
第 1 版 所 说 ， 在 一 本 书 中 比较 特定 产品 的 优点 ， 以 便 使 当前 产品 在 货架 期 之 外 仍然 保持 有 用 
是 不 合理 的 。 虽 然 产品 正 随 时 间 而 改变 一 一 乐观 地 说 是 改善 ， 评 价 的 标准 一 直 没 有 改变 ; 价 
格 、 有 效 性 、 可 扩展 人 性、 支持 人 情况、 厂商 关系 、 兼 容 性 以 及 可 以 方便 地 把 所 有 因素 集成 在 一 
起 选择 的 过 程 。 


16.6.1 所 应 用 的 技术 范围 


目前 必须 清楚 的 是 ， 没 有 单一 的 数据 挖掘 技术 可 适用 于 所 有 的 情形 。 神 经 网 络 、 决 策 树 、 
购物 篮 分 析 、 统 计 学 、 生 存 分 析 、 基 因 算 法 、 基 于 存储 的 推理 (memory based reasoning)、 链 接 
分 析 和 自动 聚 类 探测 (automatic cluster detection) 都 有 一 席 之 地 。 正 如 案例 研究 所 展示 的 ， 将 
这 些 技术 中 的 两 种 或 多 种 结合 在 一 起 所 达到 的 效果 远 远 超过 任何 单一 方法 ， 这 并 不 稀奇 。 

首先 要 保证 所 选用 的 软件 的 能 力 足以 支持 企业 的 数据 和 需求 目标 。 让 软件 稍微 超前 于 分 
析 者 的 能 力 是 一 个 好 主意 ， 这 样 人 们 就 可 以 试验 他 们 可 能 想不到 去 尝试 的 新 事物 。 在 一 个 工 
具 包 中 有 多 种 可 用 的 技术 是 有 用 的 ， 因 为 它 使 结合 和 比较 不 同 的 技术 变 得 比较 容易 。 同 时 ， 
有 几 种 不 同 的 产品 对 于 一 个 较 大 的 企业 来 说 也 是 合理 的 ， 因 为 不 同 的 产品 有 不 同 的 力量 
即使 它们 支持 同样 的 基本 功能 。 某 些 对 于 呈现 结果 是 比较 好 的 ， 某 些 对 于 给 出 得 分 是 比较 好 
的 ， 另 一 些 对 新 手 用 户 更 直观 。 

评估 将 要 进行 的 数据 挖掘 任务 的 范围 ， 决 定 使 用 哪 一 种 数据 挖掘 技术 将 会 是 最 有 价值 
的 。 如 果 你 心里 已 经 想到 单个 应 用 软件 ， 或 几 个 密切 相关 的 应 用 软件 ， 那 么 你 可 能 选择 这 种 
单一 技术 并 坚持 使 用 它 。 如 果 你 正在 建立 数据 控 据 实验 室 环 境 ， 以 处 理 范围 广泛 的 数据 控 揭 
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应 用 ， 那 么 你 可 能 想 要 寻找 一 个 配合 良好 的 工具 套装 。 


选择 数据 挖掘 软件 需要 考虑 的 问题 

下 列 问 题 是 为 你 的 公司 设计 的 ， 可 以 帮助 选择 正确 的 数据 挖掘 软件。 我 们 给 出 的 问题 是 一 
个 无 序 的 列表 ， 你 应 该 做 的 第 一 件 事 是 依照 自己 的 优先 次 序 进 行 排序 。 对 于 不 同 的 案例 ， 这 些 
优先 次 序 肯 定 会 不 同 ， 这 就 是 我 们 为 什么 没有 尝试 事先 将 它们 排序 的 原因 。 例 如 ， 在 某 些 环境 
中 ， 有 一 个 确定 的 标准 硬件 供应 者 ， 独 立 平台 不 是 一 个 问题 ; 而 在 其 他 环境 中 ， 人 们 最 为 关心 
的 是 ， 如 此 不 同 的 部 门 能 够 使 用 这 个 软件 包 ， 或 者 期 望 在 硬件 方面 将 来 会 有 一 个 变化 。 

4 由 厂商 提供 的 数据 挖掘 技术 的 应 用 范围 是 什么 ? 

e 对 于 数据 的 大 小 、 用 户 的 数目 、 数 据 中 的 字段 数目 以 及 它 使 用 的 硬件 来 说 ， 产 品 的 可 

扩展 性 如 何 ? 

e 该 产品 对 数据 库 和 文档 提供 透明 的 访问 方式 吗 ? 

4 产品 能 提供 多 种 层次 的 用 户 界面 吗 ? 

4 产品 对 于 它 产生 的 模型 能 提供 可 理解 的 解释 吗 ? 

4 该 产品 支持 图 形 、 可 视 化 及 报告 工具 吗 ? 

4 产品 与 环境 中 的 其 他 软件 (如 报告 软件 包 、 数 据 库 等 ) 交互 情况 良好 吗 ? 

4 产品 能 够 处 理 不 同 的 数据 类 型 吗 ? 

4 产品 是 否 便于 存档 ? 使 用 简单 吗 ? 

e 支持 、 训 练 及 咨询 方便 吗 ? 

4 产品 适应 现 有 计算 环境 的 程度 如 何 ? 

厂商 有 可 信 的 介绍 人 吗 ? 

一 旦 你 确定 了 上 述 哪 一 个 问题 对 你 的 组 织 最 重要 ， 通 过 与 软件 厂商 面谈 ， 或 者 从 一 个 独 
立 的 数据 挖掘 顾 问 处 获得 帮助 ， 就 可 以 利用 你 选 出 的 问题 来 评估 候选 软件 包 。 


16.6.2 可 扩展 性 


当 被 处 理 的 数据 量 大 而 复杂 的 时 候 ， 数 据 挖掘 会 提供 最 佳 帮助 。 但 是 ， 数 据 控 掘 软件 可 
能 在 小 的 样本 数据 集中 演示 的 ， 所 以 要 确定 所 考虑 的 数据 挖掘 软件 能 够 处 理 预 期 的 数据 
量 一 一 然后 可 能 更 多 地 要 考虑 将 来 的 数据 成 长 〈 数 据 不 会 随 着 时 间 变 得 更 小 )。 数 据 挖掘 的 
可 扩展 性 对 以 下 三 个 方面 是 很 重要 的 

“将 数据 转换 成 客户 特征 标识 需要 许多 输入 /输出 和 计算 能 力 ; 

“ 创建 模型 是 一 项 重复 性 的 和 投入 非常 大 的 计算 ; 

“评分 模型 需要 复杂 的 数据 转换 。 

为 探究 和 转换 数据 ， 最 方便 可 用 的 可 扩展 软件 就 是 关系 数据 库 。 它 们 是 专门 设计 的 ， 可 
以 充分 利用 多 处 理 器 和 多 磁盘 等 特点 来 处 理 单一 数据 库 查 询 。 另 一 类 软件 ， 用 于 创建 数据 库 
的 提取 、 变 换 和 装载 (ETL) 工具 对 于 数据 挖掘 也 可 能 是 可 扩展 和 有 用 的 。 然 而 ， 大 多 数 的 
程序 请 言 不 能 扩展 ， 它 们 只 支持 单一 处 理 器 和 单一 磁盘 来 处 理 单一 任务 。 当 有 许多 数据 需要 
结合 的 时 候 ， 处 理 这 些 数据 最 容易 的 扩展 办 法 时 常 在 这 个 层次 被 发 现 。 

建立 模型 和 探究 数据 需要 运行 足够 快 且 能 够 在 足够 大 量 的 数据 上 运行 的 软件 。 一 些 数据 
挖掘 工具 只 能 作用 于 内 存 中 的 数据 ， 因 此 ， 数 据 的 容量 被 有 效 内 存 所 限制 ， 它 所 具有 的 优点 
是 算法 运行 得 更 快 ， 但 存在 局 限 。 实 际 上 ， 当 可 用 内 存 以 兆 字 节 计算 的 时 候 ， 这 曾经 是 一 个 
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问题 ， 但 在 典型 的 可 用 内 存 为 千 兆 的 工作 站 上 改善 了 这 个 问题 。 通 常 ， 数 据 挖掘 环境 把 多 用 
户 数据 挖 据 服 务 器 放 在 靠近 数据 的 一 个 强 有 力 的 服务 器 上 ， 这 是 一 个 好 的 解决 办 法 ; 当 工作 
站 变 得 更 强 的 时 候 ， 在 本 地 建立 模型 也 是 可 行 的 解决 方法 。 在 这 两 种 情况 中 ， 目 标 都 是 在 合 
理 的 时 间 内 运行 模型 中 的 数 十 万 行 或 数 百 万 行 。 数 据 控 气 环 境 应 该 鼓励 使 用 者 了 解 和 探究 数 
据 ， 而 不 是 花费 精力 降低 样本 大 小 以 使 它 适 合 。 

因为 评分 环境 需要 转换 数据 同时 运行 模型 ， 所 以 它 通常 是 最 复杂 的 一 一 最 好 有 最 小 量 的 
用 户 介 入 。 也 许 最 好 的 解决 办 法 是 在 数据 挖掘 软件 既 能 读 又 能 写 到 关系 数据 库 的 时 候 ， 这 样 
就 可 能 把 数据 库 用 于 可 扩展 的 数据 处 理 ， 把 数据 挖掘 工具 有 效 地 用 于 建立 模型 。 


16.6.3 评分 支持 


当 数 据 控 握 用 于 开发 评分 模型 的 时 候 ， 对 数据 库 的 写 人 和 读 取 能 力 是 非常 重要 的 。 模 型 
可 能 是 使 用 从 主 数据 库 抽 取 的 样本 来 建立 的 。 但 一 旦 被 建立 起 来 ， 模 型 将 会 用 于 给 数据 库 中 
的 每 个 记录 评分 。 

响应 模型 的 价值 随时 间 而 减少 。 理 想 的 情况 是 ， 一 项 活动 的 结果 应 该 及 时 被 分 析 以 便 影 
响 下 一 项 活动 。 但 在 许多 组 织 中 ， 模 型 建立 的 时 间 与 它 被 用 于 对 数据 库 评 分 的 时 间 之 间 有 一 
个 长 长 的 滞后 ， 有 时 这 一 时 间 长 度 甚 至 为 数 个 星期 或 数 个 月 。 这 种 延迟 是 由 于 把 评分 模型 转 
换 成 可 用 于 数据 库 的 形式 这 一 困难 所 引起 的 ， 因 为 评分 模型 时 常 是 在 与 数据 库 服务 器 不 同 的 
计算 机 上 发 展 出 来 的 。 这 种 转换 可 能 包括 解释 数据 挖掘 工具 的 输出 结果 ， 写 出 一 个 具体 表示 
构成 模型 规则 的 电脑 程序 。 

当 数 据 库 实际 上 被 储存 在 第 三 方 设备 〈 如 表 处 理 机 ) 的 时 候 ， 问 题 将 会 更 糟糕 ， 因 为 表 
处 理 器 不 可 能 接受 C 源 代码 形式 的 神经 网 络 模型 作为 对 一 个 列表 选择 请 求 的 输入 。 建 立 一 
个 统一 的 模型 开发 和 评分 构架 需要 付出 大 量 精力 ， 但 是 如 果 为 大 型 数据 库 评分 对 于 商业 是 一 
项 重要 请 求 ， 这 种 努力 是 有 回报 的 。 


16.6.4 用 户 界 面 的 多 种 层次 


在 许多 组 织 中 ， 有 几 种 不 同 的 用 户 团 体 使 用 数据 挖掘 软件 。 为 了 适应 他 们 各 有 差异 的 需 
工具 应 该 提供 一 些 不 同 的 用 户 界 面 : 

。 为 偶尔 使 用 的 用 户 准 备 一 个 图 形 用 户 界 面 〈graphical user interface，GUI) ， 这 种 界面 
对 数据 挖掘 参数 设 有 合理 的 默认 值 ; 

。 针 对 更 熟练 用 户 的 高 级 选项 ; 

*。 以 批量 模式 〈 它 可 能 是 由 一 个 指令 行 界 面 提供 的 ) 建立 模型 的 能 力 ; 

。 应 用 程序 编程 接口 (API) ， 以 便 预 言 性 建 模 工作 能 被 内 置 到 应 用 程序 中 。 

数据 挖掘 工具 的 GUI 不 仅 能 够 让 使 用 者 容易 地 建立 模型 ， 而 且 应 该 被 设计 成 鼓励 最 佳 
实践 ， 比 如 确保 模型 评估 在 一 个 保留 集 (hold-out set) 上 执行 ， 确 保 预 言 性 模型 的 目标 变量 
来 自 比 输入 更 晚 的 一 个 时 间 帧 。 用 户 界 面 应 该 包含 一 个 帮助 系统 ， 给 出 相关 的 帮助 。 用 户 界 
面 应 该 提供 合理 的 默认 值 ， 比 如 ， 支 持 分 裂 一 个 决策 树 所 需要 的 最 少 记录 数 ， 或 者 是 为 改善 

偶然 用 户 成 功 机 会 的 神经 网 络 隐藏 层 结 点 数目 。 另 一 方面 ， 界 面 应 该 可 以 让 更 熟练 的 用 户 改 
变 默认 值 ， 高 级 用 户 应 该 能 够 控制 潜在 的 数据 挖掘 算法 的 每 一 个 方面 。 


求 


中 
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16.6.5 可 理解 的 输出 


工具 在 解释 自身 的 程度 上 差别 非常 大 ， 规 则 生成 器 、 树 可 视 化 、Web 图 表 及 关联 表格 
均 能 提供 帮助 。 

一 些 三 商 常 把 重点 放 在 数据 和 规则 的 可 视 化 表示 方面 ， 提 供 三 维 空间 数据 的 地 形 图 、 地 
理 信 息 系统 (geographic information system，GIS) 和 聚 类 图 表 ， 以 帮助 理解 复杂 的 关系 。 很 
多 数据 挖 气 工 作 的 最 终 目的 是 对 管理 进行 报告 ， 而 图 形 对 于 非 技术 用 户 信服 数据 挖掘 结果 的 
力量 不 应 该 被 低估 。 数 据 挖掘 工具 应 该 很 容易 地 将 结果 输出 到 普遍 使 用 的 报告 分 析 软 件 包 
(如 Excel 和 PowerPoint) 中 。 


16.6.6 ”处理 各 种 数据 类 型 的 能 力 


许多 数据 挖掘 软件 包 对 能 够 被 分 析 的 数据 类 型 有 所 限制 。 在 购买 一 个 数据 挖掘 软 件 包 之 
前 ， 要 查 明 它 是 否 能 够 处 理 你 想 用 的 各 种 不 同 的 数据 类 型 。 

一 些 工 具 对 于 用 分 类 变量 (如 模型 、 类 型 、 性 别 ) 作为 输入 变量 有 一 定 的 困难 ， 需 要 用 
户 把 它们 转换 成 一 系列 的 是 / 否 变量 ， 每 个 可 能 的 类 对 应 一 个 变量 。 其 他 的 工具 能 处 理 取 少 
数 几 个 值 的 分 类 变量 ， 但 当面 对 太 多 值 时 会 月 省 。 对 于 目标 字段 来 说 ， 一 些 工 具 能 处 理 二 进 
制 分 类 任务 〈 好 / 环 )， 但 对 预测 可 以 取 几 种 数值 的 分 类 变量 值 有 一 定 的 困难 。 

市 场 上 的 一 些 数据 挖掘 软件 包 需 要 由 用 户 把 连续 变量 〈 收 入 、 里 程 、 余 款 ) 分 解 到 相关 
范围 。 产 生 关联 规则 的 工具 尤其 如 此 ， 因 为 这 些 工具 需要 一 定数 目的 相同 组 合 值 ， 以 便 识 别 
出 一 个 规则 。 

大 多 数 的 数据 挖 据 工 具 不 能 够 处 理 文本 ， 虽 然 支持 文本 的 工具 已 经 出 现 。 如 果 数 据 中 的 
文本 串 是 标准 化 代码 〈 状 态 、 零 件 号 码 )， 这 没有 任何 问题 ， 因 为 字符 码 能 够 容易 地 转换 为 
数值 型 或 分 类 型 变量 。 但 有 时 应 用 程序 需要 分 析 自 由 文本 的 能 力 ， 一 些 更 高 级 的 数据 挖掘 工 
有 具 包 已 经 开始 提供 对 这 些 能 力 的 支持 。 


16.6.7 文档 及 简单 使 用 


一 个 设计 良好 的 用 户 界 面 应 该 能 够 立刻 开始 挖掘 过 程 ， 不 过 掌握 工具 需要 花 时 间 学 习 。 
和 任何 复杂 软件 一 样 ， 好 的 文档 编制 能 够 说 明成 功 和 挫败 之 间 的 差别 。 在 对 一 个 工具 做 出 选 
择 之 前 ， 请 查看 使 用 手册 。 产 品 说 明文 档 应 该 完整 描述 使 用 的 算法 ， 不 应 该 仅仅 是 对 工具 的 
操作 进行 说 明 。 企 业 不 应 该 基于 没有 弄 明白 的 技术 进行 决策 。 依 赖 于 任何 所 有 者 及 未 知 “ 秘 
密 技 术 ” 的 数据 控 据 工具 不 是 好 的 选择 。 


16.6.8 对 新 手 和 高 级 用 户 的 培训 、 咨 询 和 支持 


将 不 熟悉 的 数据 挖掘 技术 引入 一 个 企业 并 不 是 件 容 易 的 事 ， 在 把 任务 交 给 一 个 工具 之 
前 ， 需 要 从 工具 厂商 或 第 三 方 确定 是 否 存在 有 效 的 用 户 培训 及 使 用 咨询 。 

如 果 三 商 较 小 且 离 你 的 数据 挖掘 工作 位 置 距 离 遥远 ， 客 户 支持 可 能 是 不 方便 的 。 因 特 网 
已 经 缩小 了 这 个 星球 ， 所 以 与 每 个 供应 商 的 联系 实际 上 仅仅 是 几 个 电脑 按键 ， 但 是 它 没有 改 
变 人 类 晚上 睡觉 白天 工作 的 习惯 ， 时 区 仍然 是 有 关系 的 。 
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16.6.9 卖方 可 信和 度 


除非 你 已 经 熟悉 厂商 ， 否 则 应 该 想 办 法 知道 一 些 关 于 它 的 历史 记录 和 未 来 前 景 。 要 试 着 与 
已 经 使 用 该 厂商 软件 的 用 户 交 谈 ， 以 此 作为 参考 ， 以 证 实 厂 商 在 产品 说 明 书 中 声称 的 内 容 。 

不 是 说 仅仅 因为 厂商 是 新 的 、 小 的 或 者 距离 很 远 ， 就 不 应 该 从 这 样 的 公司 购买 软件 ， 数 
据 挖掘 仍然 处 于 商业 决策 支持 技术 的 前 沿 ， 通 常 是 那些 小 的 、 刚 刚 起 步 的 公司 最 先 了 解 新 技 
术 的 重要 性 ， 并 成 功 地 把 它们 引入 市 场 。 较 小 的 公司 时 常 提供 更 好 、 更 热情 的 支持 ， 因 为 回 
答 问 题 的 人 很 可 能 也 是 设计 和 创建 产品 的 人 。 


16.7 “小结 


理想 的 数据 挖掘 环境 包含 以 客户 为 中 心 的 企业 文化 和 支持 它 的 所 有 资源 。 这 些 资源 包括 
数据 、 数 据 挖掘 者 、 数 据 挖掘 基础 设施 和 数据 挖掘 软件 。 在 这 种 理想 的 数据 挖 据 环 境 中 ， 对 
良好 信息 的 需求 是 企业 文化 中 根深 落 固 的 东西 ， 操 作 规 程 的 设计 始终 把 收集 好 的 数据 的 需求 
放 在 首位 ， 而 且 数 据 挖掘 的 需求 引导 企业 数据 仓库 的 设计 。 

建立 理想 的 环境 并 不 是 件 容 易 的 事 。 要 建立 以 客户 为 中 心 的 组 织 ， 最 艰难 的 工作 是 改变 
文化 ， 如 何 完成 这 个 过 程 已 经 超出 本 书 的 讨论 范围 。 从 纯 数 据 的 角度 看 ， 第 一 个 阶段 是 创建 
一 个 单一 客户 视图 ， 它 包含 了 公司 拥有 的 与 该 客户 所 有 渠道 的 关系 ; 下 一 个 阶段 是 创建 以 客 
户 为 中 心 的 度量 ， 用 于 追踪 、 建 模 和 报告 。 

只 要 有 可 能 ， 客 户 间 的 交互 就 应 该 变 成 学 习 机 会 。 尤 其 是 ， 市 场 营销 沟通 应 该 作为 对 照 实 
验 。 这 些 实验 的 结果 可 以 当 作 数据 挖掘 模型 的 输入 ， 用 于 寻找 目标 、 交 叉 销 售 及 客户 保持 。 

有 儿 种 方法 可 以 将 数据 挖掘 融 人 到 公司 的 销售 和 客户 关系 管理 活动 中 。 对 于 那些 偶然 有 建 
模 需 求 的 公司 ， 外 包 数 据 控 据 是 可 行 的 。 当 对 数据 控 气 有 不 断 增长 的 需求 时 ， 最 好 是 在 公司 内 
部 完成 。 这 样 ， 在 挖掘 期 间 产 生 的 深入 了 解 就 掌握 于 公司 手中 ， 而 不 是 在 外 部 卖主 那里 。 

一 个 数据 挖掘 组 可 以 在 公司 组 织 的 几 个 位 置 中 获得 成 功 ， 若 把 这 个 组 定位 于 开 组 织 ， 
就 把 它 放 在 靠近 数据 及 技术 资源 的 地 方 ; 若 定位 在 一 个 企业 单位 内 ， 就 把 它 放 在 接近 商业 问 
题 的 地 方 。 无 论 哪 一 种 情况 ,在 IT 组织 及 企业 单位 之 间 都 应 有 一 个 良好 的 沟通 。 

为 数据 挖掘 环境 选择 软件 很 重要 ， 然 而 ， 数 据 挖 据 组 的 成 功 更 多 地 依赖 于 优秀 的 程序 和 
优秀 的 人 员 ， 而 不 是 他 们 的 台式 机 中 的 特殊 软件 。 
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第 17 章 ， 为 挖掘 准备 数据 


半 透 明 琥 珀 色 的 液体 一 一 汽油 是 支撑 运输 业 的 动力 ， 它 几乎 不 能 与 从 油井 抽出 的 黑色 胶 
粘 石 油 相 提 并 论 。 这 两 种 液体 之 间 的 差别 是 经 过 从 原材料 蒸馏 有 用 产品 的 若干 精炼 步骤 产生 
的 结果 。 

数据 准备 是 一 个 非常 类 似 的 过 程 。 其 间 ， 原 始 数 据 来 自 于 操作 系统 ， 其 中 的 数据 以 古怪 
的 商业 规则 与 系统 增强 和 修复 的 分 层 形式 存在 ， 时 常 堆 积 如 山 。 数 据 中 的 字段 用 于 多 种 目 
的 ， 数 值 渐渐 变 得 过 时 无 效 。 人 们 以 发 展 的 眼光 不 断 修复 错误 ， 因 此 ， 解 释 随时 间 变 化 。 准 
备 数 据 的 过 程 就 像 炼油 。 有 价值 的 东西 潜藏 在 操作 数据 的 淤泥 中 。 一 半 的 工夫 是 精炼 ; 另 一 
半 是 将 它 的 能 量 转 化 成 有 用 的 形式 ， 即 靠 汽 油 驱动 引擎 。 

数据 增值 是 现代 商业 的 特征 。 挑 战 是 使 数据 的 存在 有 意义 ， 精 炼 数据 ， 以 便 数据 挖掘 引 
擎 能 抽取 数值 。 挑 战 之 一 是 数据 的 绝对 量 。 客 户 可 能 一 年 几 次 致电 呼叫 中 心 ， 每 月 一 次 支付 
账单 ， 每 天 一 次 开启 电 话 ， 一 天 几 次 打出 和 接收 电话 。 其 间 ， 数 十 万 或 数 以 百 万 计 的 客户 在 
产生 数 以 亿 计 的 行为 记录 。 既 使 在 今天 的 计算 机 上 ， 数 据 处 理 的 量 也 是 相当 巨大 的 。 幸 运 的 
是 ， 计 算 机 系统 已 经 变 得 足够 强大 ， 真 正 的 问题 是 ， 要 有 购买 硬件 和 软件 的 适当 预算 。 从 技 
术 来 看 ， 处 理 如 此 海量 的 数据 是 可 能 的 。 

数据 的 形式 多 种 多 样 ， 来 源 于 多 个 系统 ， 存 在 类 型 各 异 。 数 据 总 是 杂乱 无 章 、 不 完全 
的 ， 有 时 是 无 法 理解 和 不 兼容 的 。 唉 ! 这 就 是 现实 世界 。 并 且 对 数据 挖掘 来 说 ， 数 据 仍 然 是 
原材料 。 汽 油 开始 以 粘 笛 物 质 的 形态 存在 ， 与 杂质 混合 在 一 起 。 只 有 经 过 不 同 阶段 的 精炼 ， 
原材料 才 被 转变 成 有 用 之 物 一 一 无 论 是 清澈 的 汽油 、 塑 料 还 是 化 肥 。 正 如 最 有 力 的 引擎 不 能 
够 使 用 原油 作为 燃料 一 样 ， 最 有 力 的 算法 〈 数 据 挖 掘 引擎 ) 不 可 能 在 尚未 准备 好 的 数据 中 发 
现 重要 的 模式 (pattern)。 

经 过 一 个 多 世纪 的 实践 ， 炼 油 的 步 邓 已 经 完全 清楚 一 比 数据 准备 的 过 程 要 清楚 得 多 。 
本 章 通过 举例 说 明 一 些 基 于 经 验 的 指导 方针 和 原则 ， 使 准备 过 程 变 得 更 加 有 效 。 首 先 讨 论 准 
备 好 的 数据 看 起 来 应 该 像 什么 样子 ， 用 它 来 描述 客户 特征 标识 〈customer signature)。 然 后 
从 数据 类 型 和 列 角色 的 角度 ， 详 细 研 究 数 据 实际 上 是 什么 样子 。 由 于 成 功 的 数据 控 掘 的 主要 
部 分 在 于 衍生 变量 (derived variable) ， 与 此 相关 的 概念 在 本 章 都 给 出 了 详细 介绍 。 本 章 的 结 
束 部 分 讨论 脏 数据 和 缺失 值 带 来 的 困难 ， 以 及 在 大 量 商业 数据 上 存在 的 计算 挑战 。 


17.1 数据 应 该 像 什么 


我 们 先 讨论 数据 应 该 像 什 么 。 所 有 的 数据 控 掘 算法 要 求 输入 是 以 表格 的 形式 ， 即 类 似 电 
子 数据 表 和 数据 库 中 常见 的 行 和 列 。 然 而 ， 与 电子 数据 表 不 同 ， 这 里 的 每 个 列 对 所 有 的 行 而 
言 必 须 代 表 相 同 的 意义 。 

一 些 算法 要 求 数 据 具 有 特别 的 格式 。 举 例 来 说 ， 购 物 篮 分 析 (已 在 第 9 章 中 讨论 ) 通常 
只 考察 在 任何 给 定 的 时 间 购 买 的 产品 。 同 样 ， 链 接 分 析 (参见 第 10 章 ) 需要 记录 之 间 的 参 
照 以 便 连 接 它 们 。 然 而 ， 大 多 数 算法 ， 特 别 是 决策 树 、 神 经 网 络 、 聚 类 和 统计 回归 都 使 用 称 
为 客户 特征 标识 的 特定 格式 的 数据 。 
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17.1.1 客户 特征 标识 


客户 特征 标识 是 客户 行为 的 快照 ， 捕 获 客 户 当前 属性 和 随时 间 的 行为 变化 。 和 支票 上 的 
客户 特征 标识 一 样 ， 理 论 上 每 位 客户 特征 标识 是 惟一 的 一 一 捕获 个 体 的 独特 特征 。 然 而 不 像 
支票 上 的 客户 特征 标识 ， 这 里 的 客户 特征 标识 是 用 于 分 析 ， 而 不 是 身份 识别 〈identifica- 
tion) 。 事 实 上 ， 与 表示 一 个 家 庭 、 个 人 或 账号 的 表面 上 看 似 随 机 的 数字 串 相 比 ， 客 户 特征 
标识 通常 没有 更 多 的 识别 (identifying) 信息 。 图 17-1 显示 ， 客 户 特征 标识 只 是 代表 客户 和 
任何 对 数据 挖掘 可 能 有 用 的 简单 数据 行 。 


该 列 是 ID 字段 ， 其 数值 在 每 个 列 不 同 。 
由 于 数据 挖掘 目的 ， 它 被 包 略 


该 列 来 自 客户 信息 文件 该 列 是 要 预测 的 目标 


oo el | 


和 一 


这 些 行 有 无 效 的 客 
户 ID， 因 此 被 忽略 


[ee | AT 
[pb lol | 


该 列 是 交易 数据 的 汇总 


该 列 是 文本 字段 ， 有 惟一 的 值 也 被 
忽略 (尽管 它 可 能 用 于 一 些 衍生 变量 ) 


这 些 列 来 自 参 照 表 ， 因 此 其 值 被 多 次 重复 
图 17-1 客户 特征 标识 的 每 行 代表 一 位 客户 〈 数 据 挖 气 单 位 ) ， 用 一 些 字段 描述 该 客户 


也 许 不 幸 的 是 ， 没 有 大 型 数据 库 拥 有 现成 的 最 新 客户 特征 标识 ， 可 以 直接 用 于 所 有 的 建 
模 应 用 。 这 类 系统 初 看 可 能 非常 有 用 。 然 而 ， 这 种 系统 缺乏 的 是 机 会 ， 因 为 建 模 工 作 需 要 了 
解数 据 。 虽 然 有 些 客户 特征 标识 对 一 些 应 用 工作 良好 ， 但 是 没有 单一 的 客户 特征 标识 能 对 所 
有 建 模 工 作 都 起 作用 。 

在 客户 特征 标识 中 的 “客户 ”是 数据 挖掘 的 单位 。 本 书 主要 关注 客户 ， 因 此 ， 典 型 的 数 
据 控 掘 的 单位 是 账户 、 个 人 或 家 庭 ， 还 有 其 他 一 些 单位 。 第 11 章 有 关于 聚 类 城镇 的 案例 研 
究 ， 那 是 一 家 报纸 开发 编辑 区 域 的 行为 准则 ， 获 取 建 模 通常 发 生 在 地 理 区 域 层 次 、 户 口 普 查 
群体 或 邮政 编码 (zip code) 层次 。 在 客户 关系 管理 之 外 的 应 用 甚至 更 不 相同 。 举 例 来 说 ， 
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AMasterizag Data Mizizag 一 书 中 有 一 个 案例 研究 ， 其 中 的 客户 特征 标识 是 杂志 印刷 厂 中 的 出 
版 物 发 行 。 
17.1.2 列 

数据 列 包 含 描述 客户 某 方面 的 数值 。 在 有 些 情形 中 ， 列 直接 来 自 当 前 的 商业 系统 ; 更 常 
见 的 是 ， 列 是 某 些 计算 的 结果 ， 称 之 为 衍生 变量 。 

每 列 包含 数值 。 范 围 指 的 是 该 列 允 许 的 取 值 集合 。 表 17-1 展示 了 数据 挖掘 使 用 的 典型 
数据 类 型 的 范围 特征 。 


表 17-1 数据 挖 拨 使 用 的 典型 数据 类 型 的 范围 特征 


变量 类 型 典型 范围 特征 

分 类 变量 可 接受 数值 的 列表 

数值 型 最 小 和 最 大 值 

日 期 型 最 时 和 最 晚 日 期 ， 通 常 最 晚 日 期 小 于 或 等 于 当前 日 期 
货币 金额 大 于 或 等 于 0 

持续 时 间 大 于 或 等 于 0 (或 者 严格 地 说 大 于 0) 

分 箱 或 分 位 数 数值 分 位 数 数 字 


计数 大 于 或 等 于 0 (或 者 大 于 或 等 于 1T) 
一 一 一- 


直方 图 (histogram) ， 如 图 17-2 所 示 ， 显 示 每 个 数值 或 数值 范围 在 某 个 数据 集中 出 现 的 
频率 。 纵 轴 是 记录 的 计数 ， 横 轴 是 列 中 的 数值 。 该 直方 图 的 形状 表示 数值 分 布 〈 严 格 来 说 ， 
在 一 个 分 布 中 ， 计 数 要 除 以 记录 总 数 ， 因 此 曲线 下 面 的 面积 是 1)。 如 果 使 用 随机 选取 的 样 
本 ， 那 么 在 子 集中 的 数值 分 布 应 该 差不多 与 初始 数据 分 布 一 样 。 

数值 分 布 提供 了 对 数据 的 重要 深入 了 解 。 它 表明 哪些 数值 是 常见 的 ， 哪 些 是 比较 罕见 
的 。 仅 仅 观 察 数值 分 布 就 引出 一 些 问 题 ， 如 数量 为 什么 是 负 的 ， 或 为 什么 有 些 分 类 数值 
《categorical value) 没有 出 现 。 虽 然 统计 学 家 上 比 数据 控 据 者 更 关心 分 布 ， 但 观察 变量 值 仍 然 
很 重要 。 此 处 ， 我 们 既 列 举 了 一 些 对 数据 挖 据 目 的 相当 重要 的 特殊 分 布 案例 ， 还 列举 了 与 目 
标 一 致 的 特殊 变量 案例 。 

1. 带 有 一 个 数值 的 列 

退化 最 严重 的 分 布 是 只 有 一 个 数值 的 列 。 一 元 数值 列 ， 顾 名 思 义 ， 不 包含 任何 可 以 帮助 
区 分 不 同行 的 信息 。 因 为 缺乏 任何 信息 内 容 ， 对 于 数据 挖掘 目的 而 言 ， 它 们 应 该 被 忽略 。 

只 有 一 个 值 有 时 是 数据 的 特性 。 举 例 来 说 ， 一 个 数据 库 拥 有 尚未 开发 的 数据 库 中 定义 的 
字段 并 不 罕见 。 字 段 是 未 来 数值 的 惟一 占 位 符 ， 因 此 所 有 数值 统一 使 用 一 个 标识 ， 如 
“nuall” 或 “no” 或 “0”。 

在 排除 一 元 变量 之 前 ， 检 查 NULL 被 当 作 数值 的 计数 。 附 加 的 人 口 统计 变量 有 时 只 有 
单一 数值 ， 或 者 当 数值 不 为 人 所 知 的 时 候 使 用 NULL。 例 如 ， 如 果 数 据 提 供 者 知道 某 人 对 打 
高 尔 夫 球 感 兴趣 ， 因 为 他 订购 了 高 尔 夫 球 杂 志 或 加 入 了 某 个 地 区 俱乐部 ， 那 么 “高 尔 夫 球 
迷 ” 的 标志 就 被 设 为 “Y”。 当 没有 证 据 时 ， 许 多 数据 提供 者 设 定 该 标志 为 NULL， 这 意味 
着 不 确定 ， 而 不 是 “N”。 

提示 : 当 变量 只 有 惟一 数值 时 ， 要 确定 : (1) NULL 被 当 作 数值 的 计数 ; (2) 当 
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选择 行 时 ， 其 他 数值 不 会 因为 足 忽 被 遗漏 。 


该 直方 图 表示 一 组 保险 索赔 的 索赔 月 份 


这 是 一 个 典型 的 均匀 分 布 的 例子 。 即 每 
个 月 的 索赔 数 大 致 相同 


该 直方 图 显示 不 同 持续 
时 间 的 呼叫 电话 数目 


| 
这 是 指数 递 减 分 布 的 例子 计 


持续 时 间 ( 分 钟 ) 


该 直方 图 显示 均值 为 50、 
标准 关 为 10 的 正 态 分 布 。 
注意 高 值 和 低 值 非常 少 


图 17-2 直方 图 显示 数据 值 的 分 布 


当 数 据 挖掘 工作 关注 客户 子 集 时 ， 一 元 数值 列 也 随 之 出 现 ， 用 于 过 滤 记 录 的 字段 在 结果 
表 保留 下 来 。 定 义 这 个 子 集 的 字段 可 能 都 包含 相同 的 数值 。 例 如 ， 如 果 在 新 泽 西 州 为 汽车 客 
户 构建 模型 ， 预 测 损失 比率 〈 一 个 保险 度量 标准 )， 那 么 州 的 字段 总 是 填写 “NJ” 字 样 。 对 
所 使 用 的 样本 ， 这 个 字段 没有 任何 信息 ， 因 此 ， 为 了 建 模 的 目的 ， 它 应 该 被 忽略 。 
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几乎 只 有 惟一 值 的 列 


在 “几乎 一 元 ”的 列 中 ， 几 乎 所 有 记录 在 该 列 都 有 相同 的 数值 。 可 能 有 几 个 离 群 值 
(outlier) ， 但 是 非常 少 。 人 举例 来 说 ， 零 售 数据 可 能 汇总 在 每 个 部 门 中 每 位 客户 的 所 有 购物 。 
极 少 客户 会 从 食品 杂货 商店 的 汽车 部 或 百货 公司 的 烟草 部 进行 购买 。 因 此 ， 几 乎 所 有 的 客户 
从 这 些 部 门 的 总 购买 量 为 0 美元 。 

购物 数据 时 常 也 是 以 “几乎 一 元 ”的 形式 出 现 。 除 了 少许 人 之 外 ， 对 所 有 人 来 说 ， 像 
“收集 次 娃娃 的 人 ”或 “在 高 尔 夫 球场 上 的 费用 量 ” 等 字段 ， 值 都 是 NULL 或 0 美元 。 某 些 
数据 ， 倒 如 调查 数据 ， 只 是 对 一 个 非常 小 的 客户 集合 可 用 。 这 都 是 数据 倾斜 的 极端 例子 ， 如 
图 17-3 所 示 。 

“几乎 一 元 ” 列 的 很 大 问题 是 :“ 何 时 可 以 忽略 它们 ?” 为 了 证 明 忽略 它们 是 正确 的 ， 数 
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值 必须 具有 两 个 特点 。 第 一 ， 几 乎 所 有 记录 必须 有 相同 的 数值 。 第 二 ， 必 须 仅 有 少量 记录 带 
有 不 同 数值 ， 构 成 数据 的 一 个 可 忽略 的 部 分 。 


3 
3,000 
2,000 
1,000 
0 二 有 0 是 三:、 荆 ” 娠 
定 SS 
人 : 
有 
分 箱 的 持续 时 间 


图 17-3 ”一 个 几乎 一 元 的 字段 ， 如 在 本 案例 中 由 等 宽 分 箱 产生 的 箱 ， 对 数据 挖掘 目的 毫 无 用 处 


数据 的 可 忽略 部 分 是 什么 ? 它 是 一 个 非常 小 的 团体 ， 即 使 数据 挖掘 算法 完全 能 够 识别 ， 
但 由 于 团体 太 小 ， 也 显得 不 再 重要 。 

然而 ， 在 忽略 列 之 前 ， 重 要 的 是 了 解数 值 为 什么 如 此 严重 倾斜 。 该 列 反映 了 关于 商业 的 
什么 事情 ? 或 许 极 少数 人 曾经 购买 汽车 产品 ， 因 为 只 有 少数 被 调查 商店 曾经 出 售 汽车 。 在 这 
种 情况 下 ， 按 照 “ 汽 车 产品 -买主 ”标识 客户 ， 不 可 能 是 有 用 的 。 

在 其 他 情况 下 ， 一 个 事件 对 于 其 他 理由 而 言 可 能 是 稀罕 的 。 在 任何 给 定 的 一 天 ， 取 消 电 
话 服务 的 人 数 可 以 忽略 不 计 ， 但 是 随 着 时 间 的 推移 ， 数 字 日 积 月 累 。 因 此 ， 需 要 在 比较 长 的 
时 期 收集 取消 量 ， 例 如 以 月 、 季 或 年 为 单位 。 或 者 ， 收 集 精 美 玩偶 的 人 数 可 能 本 来 很 少 ， 但 
是 当 与 其 他 字段 结合 的 时 候 ， 可 能 就 暗示 一 个 重要 的 收藏 家 群体 。 

经 验 法 则 是 ， 即 使 已 经 证 明 该 列 包含 非常 丰富 的 信息 ， 但 是 如 果 它 是 几乎 一 元 的 ， 就 不 
可 能 对 数据 挖 气 有 用 。 即 ， 完 全 理解 具有 不 同 数值 的 行 不 能 产生 可 操作 的 结果 。 作 为 一 般 的 
经 验 法 则 ， 如 果 列 中 95% 一 99% 的 数值 相同 ， 在 孤立 状态 下 ， 如 果 不 进 行 一 些 处 理 ， 列 很 
可 能 毫 无 用 处 。 举 例 来 说， 如 果 令 人 质疑 的 列 代表 模型 的 目标 变量 ， 那 么 分 层 取样 能 产生 一 
个 样本 集 ， 其 中 的 数据 被 高 度 集中 。 另 外 一 种 方法 是 结合 几 个 这 样 的 列 ， 创 建 会 被 证 明 是 很 
有 价值 的 衍生 变量 。 作 为 一 个 例子 ， 某 些 户口 普查 地 区 的 居民 居住 分 散 ， 例 如 那些 特殊 职业 
的 地 区 。 然 而 ， 将 某 些 字 段 联合 成 单一 的 字段 ， 如 “地 位 显 替 的 职业 ”， 能 证 明 对 于 建 模 目 
的 是 有 用 的 。 

3. 带 有 惟一 数值 的 列 

对 每 个 单一 行 或 者 几乎 每 一 行 取 不 同 数值 的 分 类 列 属 于 另 一 个 极端 。 这 些 列 惟一 地 (或 
者 非常 接近 ) 识别 每 位 客户 ， 例 如 : 
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。 客 户 名 字 

。 地 址 

。 电 话 号 三 

。 客 户 身份 标识 〈Customer ID ) 

。 车 辆 标识 号 码 

这 些 列 也 不 是 很 有 帮助 。 为 什么 呢 ? 因为 它们 惟一 地 识别 每 行 ， 所 以 它们 没有 预言 性 价 
值 。 这 种 变量 将 导致 过 度 适应 。 

一 条 忠告 稍 后 将 会 在 本 章 中 进行 研究 。 有 时 这 些 列 包 含 很 丰富 的 信息 。 在 电话 号 码 和 地 
址 中 湾 藏 的 是 重要 的 地 理 数据 。 客 户 的 名 字 暗 示 了 人 性别。 客户 号 码 可 能 是 按时 序 分 派 的 ， 说 
明 哪 些 客 户 是 近期 开通 的 ， 因 此 在 决策 树 中 揭示 重要 的 变量 。 这 些 是 从 字段 中 提取 重要 特征 
〈 例 如 地 理 布局 信息 和 客户 细 新 度 ) 作为 衔 生变 量 的 案例 。 然 而 ， 数 据 控 气 算法 还 远 未 强大 
到 提取 来 自 数 值 的 这 种 信息 ， 需 要 数据 挖掘 者 进行 提取 。 

4. 与 目标 相关 联 的 列 

当 某 一 列 与 目标 列 高 度 相 关 的 时 候 ， 就 意味 着 列 只 是 一 个 同 义 字 。 在 这 里 举 两 个 例子 ， 

。 账号 为 NULL” 可 能 同 义 于 营销 活动 响应 失败 。 响 应 者 只 是 开 立 账户 并 被 分 配 账 号 。 

。 “流失 的 日 期 不 是 NULL” 与 已 经 流失 是 同 义 的 。 

另外 一 种 危险 是 ， 该 列 反 映 以 前 的 商业 实 契 。 例 如 ， 数 据 可 能 显示 具有 了 呼叫 转移 的 所 有 
客户 也 有 呼叫 等 候 ， 这 是 产品 打包 的 结果 ; 呼叫 转移 总 是 在 包括 呼叫 等 候 的 打包 产品 中 被 卖 
出 。 或 者 数据 可 能 显示 ， 几 乎 所 有 的 客户 居住 在 最 富有 的 地 区 ， 因 为 这 里 是 过 去 的 客户 获取 
活动 的 目标 。 该 例 说 明 ， 数 据 挖掘 者 需要 了 解 历 史 商 业 实践 。 与 目标 同 义 的 列 应 该 被 忽略 。 

提示 : 一 种 容易 找到 与 目标 同 义 的 列 的 方法 是 建立 决策 树 。 决 策 树 将 会 选择 一 个 同 

义 变 量 ， 然 后 这 个 变量 可 以 被 忽略 。 如 果 决 策 树 工 具 让 你 见 到 其 他 可 能 的 拆 分 ， 那 

么 能 立刻 发 现 所 有 这 类 变量 。 


17.1.3 模型 在 建 模 中 的 角色 


列 包含 带 有 数据 类 型 的 数据 。 除 此 之 外 ， 列 具有 数据 挖掘 算法 相关 的 角色 。 三 个 重要 的 
角色 是 : 

1) 输入 列 。 即 那些 用 做 模型 输入 的 列 。 

2) 目标 列 。 即 仅 用 于 构建 预言 性 模型 的 一 个 列 或 者 一 组 列 。 这 是 一 些 值得 关注 的 事情 ， 
如 购买 特别 产品 的 倾向 性 〈propensity) 、 响 应 优惠 的 概率 或 者 保留 客户 的 可 能 性 。 当 构建 非 
定向 模型 时 ， 就 不 需要 有 目标 。 

3) 已 忽略 的 列 。 即 不 再 使 用 的 列 。 

不 同 的 工具 中 ， 这 些 角 色 有 不 同 的 名 字 。 图 17-4 展示 了 在 Angoss Knowledge Studio 中 
如 何 去 除 一 个 列 。 

提示 : 被 忽略 的 列 在 聚 类 中 起 着 非常 重要 的 作用 。 由 于 被 忽略 的 列 不 能 用 来 建立 

徐 ， 它 们 在 著 中 的 分 布 可 能 很 有 价值 。 通 过 忽略 如 客户 利润 率 或 响应 标志 等 列 ， 能 

够 发 现 这 些 被 忽略 的 列 是 如 何在 答 中 分 布 ， 还 可 能 正好 发 现 了 关于 客户 利润 或 响应 

者 的 非常 关键 的 事情 。 
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图 17-4。 Angoss Knowledge Studio 支持 几 个 模型 角色 ， 例 如 构建 模型 时 忽略 一 个 列 


也 有 某 些 更 高 级 的 角色 能 够 在 特定 的 环境 之 下 使 用 。 图 17-5 显示 了 在 SAS Enterprise 
Miner 中 许多 可 用 的 模型 角色 。 这 些 模型 角色 包括 : 

1) 标识 列 。 是 惟一 识别 每 行 的 列 。 总 而 言 之 ， 这 些 列 对 于 数据 挖掘 目的 可 以 忽略 ， 但 
是 对 于 评分 很 重要 。 

2) 权重 列 。 详 细 说 明 适 用 于 每 行 的 “权重 ”。 是 通过 包含 数据 权重 创造 权重 样本 的 
方法 。 

3) 成 本 列 。 详 细 说 明 与 行 相关 联 的 成 本 。 举 例 来 说 ， 如 果 正 在 构建 保留 客户 模型 ， 那 
么 “成 本 ”可 能 包括 每 位 客户 价值 的 估计 。 有 些 工 具 能 够 使 用 这 种 信息 优化 正在 构建 的 模 
型 。 工 具 中 另外 的 模型 角色 是 SAS Enterprise Miner 所 特有 的 。 


17-5 SAS Enterprise Miner 具有 很 宽 范 围 的 可 用 模型 角色 
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17.1.4 变量 度量 


变量 在 数据 中 出 现 ， 具 有 某 些 重要 的 特性 。 数 据 库 与 变量 ( 稍 后 将 回 到 这 个 主题 ) 的 类 
型 有 关 ， 而 数据 挖掘 与 变量 的 度量 有 关 。 正 是 度量 决定 了 算法 如 何 处 理 数 值 。 下 面 的 度量 对 
数据 控 掘 是 重要 的 : 

。 分 类 变量 能 平等 地 进行 比较 ， 但 是 没有 有 意义 的 排序 。 举 例 来 说 ， 州 的 缩写 属于 分 类 

变量 。 阿 拉巴 马 州 按 字母 顺序 与 阿拉 斯 加 州 相 邻 ， 但 并 不 意味 着 这 两 个 州 之 间 的 实际 
臣 离 比 阿 拉巴 马 州 和 田纳西 州 近 ， 实 际 上 后 两 个 州 相 互 接壤 ， 但 是 要 按 字母 顺序 就 显 
得 非常 远 。 
。 有 序 变量 (ordered variable) 能 按 相等 、 大 于 和 小 于 进行 比较 。 学 生 课堂 成 绩 可 以 归 
人 到 A~F 的 范围 ， 这 是 有 序数 值 的 例子 。 

。 区 间 变 量 被 排序 ， 并 且 支 持 减法 运算 〈 不 需要 其 他 任何 数学 运算 ， 例 如 加 法 和 乘法 )。 
日 期 和 温度 是 区 间 变 量 的 例子 。 

。 真 数值 型 变量 〈true numeric variable) 是 支持 加 法 和 其 他 数学 运算 的 区 间 变 量 。 钱 数 
和 客户 保有 期 〈 按 数 天 计算 ) 是 数值 型 变量 的 例子 。 

真 数 值 和 区 间 之 间 的 区 别 是 细微 的 。 然 而 ， 数 据 挖 掘 算法 以 相同 的 方法 对 待 它 们 。 同 时 
要 注意 ， 这 些 度量 形成 分 层 : 任何 有 序 变 量 也 是 分 类 变量 ， 任 何 区 间 变 量 也 是 分 类 变量 ， 任 
何 数值 型 变量 也 都 是 区 间 变 量 。 

度量 和 数据 类 型 之 间 有 区 别 。 例 如 ， 数 值 型 变量 可 能 表示 编码 方案 ， 如 表示 账号 状态 或 
甚至 州 的 缩写 。 虽 然 数 值 看 起 来 像 数字 ， 实 际 上 属于 分 类 。 邮 政 编码 是 这 种 现象 的 普通 
例子 。 

某 些 算法 期 望 变量 具有 某 种 度量 。 举 例 来 说 ， 统 计 回归 和 神经 网 络 期 望 输入 是 数值 型 
的 。 因 此 ， 如 果 包 括 邮 政 编码 字段 ， 并 且 作 为 数字 存储 ， 那 么 算法 把 它 的 数值 当 作 数值 型 来 
看 待 ， 一 般 来 说 这 不 是 好 的 办 法 。 与 之 相反 的 是 ， 决 策 树 把 输入 当 作 分 类 变量 或 有 序 变量 来 
看 待 ， 即 使 它们 是 数值 型 的 。 

度量 是 一 个 重要 的 性 质 。 在 实践 中 ， 变 量 在 数据 库 和 文件 编排 中 有 各 种 与 之 关联 的 类 . 
型 。 本 节 下 面 将 详细 讨论 数据 类 型 和 度量 。 

1. 数字 

数字 通常 表示 数量 ， 并 且 对 于 建 模 目 标 是 好 的 变量 。 数 值 型 数量 既 有 排序 (被 决策 树 使 
用 ) 也 有 执行 算术 的 能 力 (被 其 他 的 算法 使 用 ， 如 聚 类 和 神经 网 络 )。 有 时 ， 数 字 看 起 来 像 
一 个 数字 ， 实 际 上 却 表示 代码 或 ID。 在 这 种 情况 下 ， 最 好 把 数字 当 作 分 类 数值 (在 以 下 两 
部 分 讨论 ) 来 看 待 ， 因 为 排序 和 数字 的 算术 特性 可 能 误导 试图 找到 模式 的 数据 控 据 算法 。 

有 很 多 种 不 同 的 转换 数字 数值 量 的 方法 。 图 17-6 显示 了 几 种 常见 的 方法 : 

1) 归 一 化 。 使 得 到 的 数值 落 在 特定 的 范围 之 内 ， 比 如 说 ， 通 过 减 去 最 小 值 并 且 除 以 整 
个 范围 区 间 。 当 使 用 某 些 技术 时 ， 例 如 神经 网 络 和 开平 均 聚 类 (K-means clustering) ， 归 一 
化 可 能 是 有 用 的 。 这 些 技术 完成 数学 运算 ， 例 如 直接 对 数值 进行 乘法 运算 。 因 为 归 一 化 不 改 
变数 值 的 排序 ， 决 策 树 不 会 受到 归 一 化 的 影响 。 

2) 标准 化 。 即 把 数值 转变 成 偏离 均值 的 标准 差 数 量 ， 它 很 好 地 揭示 了 数值 的 非 经 期 程 
度 。 用 到 的 算法 很 容易 一 一 减 去 平均 值 并 且 除 以 标准 差 。 这 些 标 准 值 也 被 称 为 z 得 分 。 和 归 
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一 化 一 样 ， 标 准 化 不 影响 排序 ， 因 此 ， 它 对 决策 树 没有 影响 。 


在 区 间 [0，1] 上 的 归 一 化 


分 箱 为 十 分 位 数 

王 一 四 
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图 17-6“， 归 一 化 、 标 准 化 和 分 箱 是 转换 数值 型 变量 的 典型 方法 


3) 等 宽 分 箱 。 即 把 变量 转变 成 固定 宽度 的 范围 。 形 成 的 变量 和 初始 变量 有 大 致 相同 的 
分 布 。 然 而 ， 分 箱 (binning) 数值 影响 所 有 的 数据 挖掘 算法 。 

4) 等 高 分 箱 。 即 把 变量 转变 成 ”个 块 〈 例 如 五 分 位 数 或 十 分 位 数 ) ， 因 此 相同 数目 的 记 
录 落 入 每 个 箱子 。 得 到 的 变量 呈 均 匀 分 布 。 

或 许 料想 不 到 的 是 ， 分 箱 数 值 能 改善 数据 挖掘 算法 的 性 能 。 对 于 神经 网 络 来 说 ， 分 箱 是 
减少 离 群 值 影响 力 的 几 种 方法 之 一 ， 因 为 所 有 的 离 群 值 进 入 同一 个 箱 内 。 对 于 决策 树 来 说 ， 
分 箱 变 量 可 能 造成 在 树 的 高 度 层 次 上 有 较 多 相等 大 小 的 子 结 点 〈 即 ， 与 出 现 一 个 子 结 点 得 到 
5% 的 记录 而 其 他 子 结 点 得 到 95% 的 记录 的 情况 相反 ， 利 用 相应 的 分 箱 变 量 ， 一 个 箱子 可 能 
得 到 20% ， 而 其 他 箱子 得 到 80% )。 虽 然 基于 分 箱 变 量 的 拆 分 不 是 最 优 结果 ， 但 是 此 后 的 拆 
分 可 能 产生 更 好 的 树 。 

2. 日 期 和 时 间 

日 期 和 时 间 是 区 间 变 量 最 常见 的 例子 。 因 为 这 些 变量 将 时 间 元 素 引 入 到 数据 分 析 ， 所 以 
它们 非常 重要 。 通 常 ， 日 期 和 时 间 变 量 的 重要 意义 在 于 ， 它 们 为 其 他 的 变量 提供 时 间 序 列 和 
时 间 惟 信息 ， 例 如 最 后 一 次 投诉 呼叫 的 原因 和 分 析 。 

因为 有 无 数 不 同 的 格式 ， 采 用 日 期 和 时 间 戳 的 工作 可 能 是 困难 的 。Excel 有 15 种 不 同 的 
为 单元 预 置 的 日 期 格式 ， 并 且 具 有 定制 更 多 形式 的 能 力 。 日 期 和 时 间 的 一 种 典型 的 内 在 格式 
是 作为 单个 数字 ， 即 从 过 去 某 个 日 期 开始 的 天 数 或 秒 数 。 当 这 种 情形 出 现时 ， 数 据 挖掘 算法 
把 日 期 当 作 数 字 看 待 。 这 种 表示 足以 使 算法 检测 较 早 和 稍 后 发 生 的 事情 。 然 而 ， 也 错过 其 他 
值得 加 入 数据 的 重要 特性 : 

。 一 天 某 时 

。 一 周 的 某 一 天 ， 是 否 是 工作 日 或 者 周末 

。 假 日 

Ralph Kimball 在 他 的 The Data Warehoxse TooRit (Wiley，2002) 一 书 中 大 力 推荐 日 历 
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是 为 数据 仓库 创建 的 首选 表格 之 一 。 由 于 日 历 的 属性 通常 对 数据 挖掘 工作 很 重要 ， 我 们 也 非 
常 赞同 这 个 建议 。 

当 采 用 日 期 和 时 间 工 作 时 ， 遇 到 的 一 个 困难 就 是 时 区 。 尤 其 是 在 互相 连接 的 网 络 址 界 
中 ， 时 间 蕉 通常 是 来 自 服务 器 计算 机 的 时 间 惟 ， 而 不 是 客户 所 在 位 置 的 时 间 。 记 住 ， 在 凌晨 
访问 网 站 的 客户 ， 实 际 上 可 能 是 新 加 坡 的 一 位 在 午餐 时 间 上 网 冲浪 的 人 ， 而 不 是 生活 在 纽约 
的 夜 猫 子 。 

3. 固定 长 度 的 字符 串 

通常 意义 上 ， 固 定 长 度 的 字符 串 表 示 分 类 变量 (categorical variable) ， 其 取 值 属于 一 个 
已 知 的 数值 集 。 应 该 将 数据 中 出 现 的 实际 数值 与 合法 数值 列表 进行 比较 ， 以 检查 非法 数值 ， 
查证 该 字段 是 否 已 被 填充 ， 考 察 哪些 数值 是 最 频繁 的 ， 哪 些 是 最 不 频繁 的 。 

国定 长 度 的 字符 串 时 常 表 示 某 种 代码 。 最 好 是 ， 时 常 有 参照 表 描 述 这 些 代码 的 含义 是 什 
么 。 参 照 表 提供 分 层 和 其 他 属性 ， 当 仅仅 观察 代码 本 身 时 ， 这 些 属性 可 能 是 不 明显 的 ， 所 以 
它们 对 数据 挖掘 特别 有 用 。 

字符 串 确 实 有 一 个 排序 ， 即 字母 顺序 。 然 而 ， 如 同 前 面 列举 的 阿拉 巴 马 州 和 阿拉 斯 加 州 
的 例子 所 示 ， 这 种 排序 可 能 对 图 书馆 管理 员 是 有 用 的 ， 但 是 对 数据 挖掘 者 来 说 用 处 不 是 很 
大 。 当 存在 可 判断 的 次 序 时 ， 用 数字 代替 代码 是 有 意义 的 。 举 例 来 说 ， 一 家 公司 将 客户 划分 
成 三 个 群体 : 少 于 !1 年 保有 期 的 “新 ”客户 、 在 1 和 2 年 之 间 的 “边缘 ”客户 和 超过 2 年 的 
“核心 ”客户 。 这 些 范畴 具有 清晰 的 排序 。 实 际 上 ， 具 体 化 的 排序 的 一 种 方法 可 能 是 将 三 个 
群体 分 别 映射 到 数字 1、2 和 3。 更 好 的 方法 是 要 包括 用 于 数据 挖掘 目的 的 真实 保有 期 ， 尽 
管 报 告 可 能 仍然 以 保有 期 分 组 为 基础 。 

当 有 较 少 的 分 类 时 ， 数 据 挖 掘 算法 通常 表现 更 好 。 减 少 大 量 分 类 的 一 个 方法 就 是 使 用 代 
码 属 性 ， 而 不 是 代码 本 身 。 举 例 来 说 ， 一 家 移动 电话 公司 的 客户 可 能 使 用 数 百 种 不 同 的 移动 
电话 设备 代码 (尽管 只 是 几 种 流行 的 产品 吸引 巨 量 客户 )。 我 们 不 是 独立 地 使 用 每 个 型 号 ， 
而 是 包括 移动 电话 的 重量 、 移 动 电话 最 初 上 市 的 日 期 等 特征 ， 以 及 由 此 提供 的 一 些 特 征 。 

美国 的 邮政 编码 提供 了 取 值 很 多 、 潜 在 有 用 的 变量 的 好 例子 。 减 少数 值 数 目的 一 种 方法 
是 只 使 用 前 三 个 字符 〈 数 字 ) ， 这 些 是 区 域 中 心 设 施 (SCF)， 通 常 处 于 县 或 大 城镇 的 中 心 。 
它们 保持 邮政 编码 中 大 部 分 的 地 理 信息 ， 但 处 于 更 高 层次 。 尽 管 SCF 和 邮政 编码 都 是 数字 ， 
但 应 该 都 视 作 代码 。 需 要 提 及 的 是 ， 在 邮政 编码 中 ， 开 头 的 数字 “0” 很 重要 ， 例 如 Data 
Miners 公司 的 邮政 编码 是 02114， 如 果 没 有 开头 的 数字 “0”， 就 没有 任何 意义 。 

有 些 业务 是 区 域 性 的 ， 结 果 是 ， 几 乎 所 有 的 客户 都 位 于 少数 几 个 邮政 编码 区 域 。 然 而 ， 
仍然 可 能 有 很 多 其 他 的 客户 松散 地 分 布 在 许多 其 他 的 地 方 。 在 这 种 情况 下 ， 最 好 是 把 所 有 松 
散 数值 分 到 单个 “其 他 ”类 。 另 外 一 个 较 好 的 方法 是 ， 用 关于 邮政 编码 的 信息 代替 邮政 编 
码 。 可 能 有 几 条 信息 ， 例 如 中 值 收 入 和 平均 住宅 价格 (来 自 人 口 普 查 局 )， 还 有 最 近 一 次 
营销 活动 的 穿 透 度 和 响应 率 。 用 描述 性 数字 更 换 字 符 串 数值 是 将 商业 知识 引 和 人 建 模 的 有 力 
方法 。 

提示 : 用 分 类 的 数值 型 汇总 (例如 在 一 个 邮政 编码 区 域内 的 产品 穿 适度 ) 代替 分 类 

变量 ， 能 够 改善 数据 挖 据 模 型 ， 解 决 分 类 中 有 很 多 数值 的 问题 。 

神经 网 络 和 开平 均 聚 类 是 期 望 输入 是 区 间 变 量 或 真 数值 型 变量 的 算法 的 例子 。 这 就 引 
发 了 关于 字符 串 的 问题 。 幼 稚 的 方法 是 为 每 个 数值 分 配 一 个 数字 。 然 而 ， 数 字 含 有 代码 中 没 
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数值 创造 一 组 标志 ， 称 为 指示 器 变量 (indicator variable)。 虽 然 这 增加 了 变量 的 数量 ， 但 消 
除了 虚假 排序 的 问题 ， 改 善 了 结果 。 神 经 网 络 工具 时 常 自动 进行 这 些 工 作 。 

总 之 ， 有 几 种 方法 处 理 固定 长 度 的 字符 串 : 

。 如 果 仅 有 几 个 数值 ， 那 么 直接 使 用 数值 。 

。 如 果 数 值 包含 有 用 的 排序 ， 那 么 数值 能 被 变 成 代表 排序 的 分 级 。 

。 如 果 有 参照 表 ， 那 么 描述 代码 的 信息 可 能 是 更 有 用 的 。 

。 如果 玫 个 数值 占有 主导 优势 ， 但 也 有 很 多 其 他 数值 ， 那 么 较 稀 有 的 数值 可 以 分 到 一 个 

“其 他 ”类 中 。 

*。 对 于 期 望 数值 型 输入 的 神经 网 络 和 其 他 算法 ， 数 值 可 以 映射 到 指示 器 变量 。 

这 些 方 法 的 共同 特征 是 ， 将 域 信 息 纳入 编码 程序 ， 因 此 ， 数 据 挖 掘 算 法 能 够 寻找 料想 不 
到 的 模式 ， 而 不 是 发 现 已 知 的 模式 。 

4. 身份 标识 (ID) 和 关键 字 

一 些 变量 的 目的 是 提供 到 有 较 多 信息 的 其 他 记录 的 链接 。 身 份 标识 和 关键 字 时 常 被 作为 
数字 加 以 存储 ， 尽 管 也 可 能 以 字符 串 的 形式 存储 。 作 为 一 般 的 规则 ， 这 种 身份 标识 和 关键 字 
不 应 该 直接 用 于 建 模 目 的 。 

数据 挖掘 应 该 忽略 的 字段 的 一 个 好 例子 是 账号 。 出 人 意料 的 是 ， 此 类 字段 可 能 改善 模 
型 ， 因 为 账号 不 是 随机 分 配 的 。 时 常 ， 它 们 被 顺序 分 配 ， 因 此 旧账 号 的 号 码 低 ; 也 可 能 基于 
获取 渠道 分 配 ， 因 此 所 有 网 络 账号 比 其 他 账号 的 号 码 高 。 最 好 在 客户 特征 标识 中 明确 包括 有 
关 的 信息 ， 而 不 要 依赖 于 潜在 的 商业 规则 。 

在 有 些 情形 中 ， 身 份 标识 确实 加 入 了 有 意义 的 信息 。 在 这 些 情况 下 ， 应 该 提取 信息 ， 使 
它 更 接近 数据 控 掘 算法 的 需要 。 下 面 给 出 一 些 例子 。 

电话 号 码 包 含 国 家 代码 、 区 号 和 电话 交换 局 ， 所 有 这 些 都 包含 地 理 信 息 。 在 北美 地 区 ， 
标准 的 10 位 数 电话 号 码 前 三 位 代表 区 号 ， 后 三 位 表示 电话 局 ， 最 后 四 位 代表 电话 线路 。 在 
大 多 数 数 据 库 中 ， 区 号 提供 有 益 的 地 理 信息 。 在 北美 地 区 以 外 ， 电 话 号 码 的 格式 各 有 不 同 。 
在 某 些 情形 中 ， 区 号 和 电话 号 码 是 变 长 的 字符 串 ， 使 提取 地 理 信 息 更 加 困难 。 

统一 产品 代码 (A 类 UPC) 是 12 位 代码 ， 识 别 通过 扫 撒 仪 的 许多 产品 。 前 六 位 是 制造 
次 代 码 ， 紧 跟着 的 五 位 代表 特定 产品 的 代码 。 最 后 一 位 数字 没有 具体 意义 ， 是 用 来 检验 数据 
的 校 验 数字 。 

车 辆 标识 码 是 刻 在 汽车 上 的 17 个 字符 的 代码 ， 描 述 制造 商 、 型 号 和 车 辆 的 生产 年 。 第 
一 个 字符 描述 原 产 国家 ; 第 二 个 代表 制造 商 厂 家 ; 第 三 个 是 车 辆 类 型 ;第 4 一 8 个 字符 记录 
车 辆 的 特定 特征 ; 第 10 个 是 此 款 车 辆 的 生产 年 ; 第 11 个 是 生产 车 辆 的 装配 广 ; 剩余 的 六 个 
是 连续 的 产品 序列 号 。 

信用 卡号 有 13 一 16 位 数字 。 前 几 位 数字 是 卡片 网 络 代码 。 特 别 是 ， 它 们 能 区 别 美 国 特 
快 卡 〈American Express) 、 维 萨 卡 〈Visa) 、 万 事 达 卡 〈MasterCard) 和 发 现 号 卡 〈Discov- 
er) ， 等 等 。 不 幸 的 是 ， 其 他 数字 的 使 用 依赖 于 网 络 ， 因 此 ， 没 有 统一 的 标准 来 区 分 金 卡 和 
银 卡 。 顺 便 提 一 下 ， 最 后 一 个 数字 是 用 来 作为 基本 的 校 验 数字 ， 用 来 验证 信用 卡号 是 否 有 
效 。 校 验 数字 的 算法 被 称 为 Luhn 算法 ， 以 IBM 公司 开发 它 的 研究 人 员 命 名 。 

在 一 些 国 家 (不 是 美国 ) ， 公 民 身 份 标识 码 含有 个 人 性 别 和 出 生 的 数据 。 当 它 可 用 的 时 
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候 ， 这 是 有 益 的 、 精 确 的 人 口 统计 信息 资源 。 

5. 名 字 

虽然 我 们 想 了 解 客 户 ， 但 数据 挖掘 的 目标 不 是 真正 面对面 接触 他 们 。 一 般 而 言 ， 名 字 对 
于 数据 挖掘 不 是 有 用 的 信息 源 。 当 试图 了 解 特 定 的 市 场 ， 或 按 性 别 发 送信 息 时 ， 有 一 些 情 
形 ， 依 照 种 族 〈 像 西班牙 名 字 或 亚洲 人 的 名 字 ) 分 类 名 字 可 能 是 有 意义 的 。 然 而 ， 这 种 工作 
充其量 是 非常 粗糙 的 近似 ， 并 且 不 会 被 广泛 应 用 于 建 模 目 的 。 

6. 地 址 

地 址 描述 客户 的 地 理 信 息 ， 对 了 解 客 户 行为 非常 重要 。 不 幸 的 是 ， 只 有 邮局 能 够 理解 许 
多 不 同 的 书写 地 址 方式 的 变形 。 幸 运 的 是 ， 有 服务 局 和 软件 能 够 标准 化 地 址 字段 。 

地 址 最 重要 的 用 途 之 一 ， 是 了 解 两 个 地 址 什么 时 候 指 的 是 同一 地 址 ， 什 么 时 候 是 不 同 
的 。 举 例 来 说 ， 在 网 络 上 订购 产品 的 递送 地 址 是 否 与 银行 信用 卡 的 账单 地 址 相同 ? 如 果 不 
是 ， 可 能 暗示 购买 的 是 一 件 礼 品 〈 如 果 两 个 地 址 相 臣 很 远 ， 且 支付 了 包装 礼物 的 费用 ， 则 这 
种 暗示 更 强烈 )。 

除了 发 现 精确 匹配 之 外 ， 整 个 地 址 本 身 不 是 特别 地 有 用 ; 最 好 提取 有 用 的 信息 ， 用 另外 
的 字段 表示 它 。 某 些 有 用 的 特征 如 下 ， 

。 公寓 号 (有 或 没有 ) 

。 城 市 

。 州 

* 邮政 编码 

最 后 三 个 通常 被 存储 在 不 同 的 字段 中 。 因 为 地 理学 时 常 在 理解 客户 行为 方面 起 着 比较 重 
要 的 作用 ， 所 以 我 们 推荐 标准 化 地 址 字段 ， 并 附加 有 用 的 信息 ， 如 户口 普查 群 组 、 多 单元 楼 
或 单个 单元 楼 、 居 住地 址 或 商务 地 址 、 续 度 、 经 度 ， 等 等 。 

7. 自由 文本 

自由 文本 向 数据 挖掘 提出 挑战 ， 因 为 这 些 字段 提供 丰富 的 信息 ， 通 常 很 容易 被 人 类 理 
解 ， 但 是 不 能 被 自动 化 的 算法 领悟 。 已 经 发 现 ， 最 佳 方式 是 从 文本 中 巧妙 地 提取 特征 ， 而 不 
是 向 计算 机 展现 整个 文本 字段 。 

文本 有 许多 来 源 ， 例 如 : 

。 医 生 诊 视 病 人 的 记录 

。 呼 叫 中 心 人 员 打 印 的 备忘录 

。 发 送 客 户 服务 中 心 的 电子 邮件 

。 以 表格 形式 提交 的 评论 ， 不 管 是 网 络 表 格 还 是 保险 表格 

*。 在 呼叫 中 心 的 声音 识别 算法 

在 商业 界 的 文本 源 具 有 特定 的 特性 ， 它 们 不 合乎 文法 ， 并 且 充 满 了 错误 的 拼写 和 缩写 。 
人 类 一 般 能 够 理解 它们 ， 但 是 对 于 自动 化 这 种 理解 是 非常 困难 的 。 因 此 ， 即 使 人 们 容易 辨识 
多 余 的 邮件 ， 编 写 自 动 过 滤 垃 瓜 邮 件 的 软件 也 是 相当 困难 。 

我 们 推荐 的 方法 是 ， 通 过 寻找 特定 的 子 串 探索 特别 的 特征 。 举 例 来 说 ， 从 前 一 个 犹太 人 
群体 因为 一 家 公司 支持 以 色 列 的 立场 而 联合 抵制 这 家 公司 。 呼 叫 中 心服 务 员 打印 的 备忘录 字 
段 是 关于 为 什么 客户 停止 的 最 佳 信息 来 源 。 不 幸 的 是 ， 这 些 字段 不 是 统一 地 表示 “由 于 以 色 
列 的 政治 原因 而 停止 "。 事 实 上 ， 许 多 评论 包含 了 一 些 对 “Jsreal” (以 色 列 ) 、“Is rael”、 
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“Palistine” 等 的 引用 (编者 注 : Palestine， 巴 勤 斯 坦 )。 分 类 文本 备忘录 需要 在 文本 (在 这 
种 情况 下 ,“Israelj”、“Isreal” 和 “Is rael” 都 被 使 用 ) 中 寻找 特定 的 特征 ， 然 后 分 析 结果 。 

8. 二 进 制 数 据 (声音 、 图 像 等 ) 

不 用 惊奇 ， 有 其 他 一 些 数据 类 型 没有 落 和 人 这些 很 好 的 类 。 声 音 和 图 像 变 得 日 益 普 遍 ， 但 
数据 挖掘 工具 通常 不 支持 它们 。 

由 于 这 些 类 型 的 数据 可 能 包含 丰富 的 数据 ， 可 以 对 它们 做 什么 呢 ? 答案 是 提取 特征 放 人 
衍生 变量 之 内 。 然 而 ， 这 种 特征 提取 工作 对 所 使 用 的 数据 是 非常 特别 的 ， 并 且 已 超出 本 书 的 
范围 。 


17.1.5 用 于 数据 挖掘 的 数据 


数据 挖掘 期 盼 数 据 有 特别 的 格式 : 

。 所 有 数据 应 该 放 在 单一 表格 中 

。 每 行 应 该 与 一 个 实体 相对 应 ， 例 如 客户 ， 与 商务 有 关 

。 带 有 单一 数值 的 列 应 该 被 忽略 

。 对 每 列 带 有 不 同 数 值 的 列 应 该 被 和 忽略， 虽然 它们 的 信息 可 能 被 包含 在 导出 列 之 中 

。 对 于 预言 性 建 模 ， 上 有 目标 列 应 该 被 识别 ， 并 且 所 有 的 同 义 列 要 除去 

唉 ， 这 不 是 在 现实 世界 中 发 现 数据 的 方式 ! 在 现实 世界 中 ， 数 据 来 自 于 源 系统 (source 
system) ， 可 以 用 特别 的 方式 存储 每 个 字段 。 通 常 ， 我 们 需要 使 用 存储 在 参照 表 中 的 数值 代 
替 字段 ， 或 者 从 更 复杂 的 数据 类 型 提取 特征 。 下 一 节 讨 论 把 这 些 数 据 整理 成 为 客户 特征 
标识 。 


17.2 构建 客户 特征 标识 


构建 客户 特征 标识 ， 尤 其 第 一 次 ， 是 一 个 逐渐 递增 的 过 程 。 最 低 要 求 ， 客 户 特征 标识 至 
少 需要 构建 两 次 ， 其 中 一 次 构建 模型 ， 一 次 用 于 评分 。 实 际 上 ， 探 索 数 据 和 建立 模型 提出 新 
的 变量 和 转换 ， 因 此 ， 需 要 多 次 重复 这 个 过 程 。 具 有 可 重复 的 过 程 使 数据 挖掘 工作 变 得 
简单 。 

如 图 17-7 所 示 ， 过 程 中 的 第 一 步 是 识别 数据 的 有 效 来 源 。 毕 竟 ， 就 客户 层次 而 言 ， 客 
户 特 征 标识 是 概要 ， 是 已 知 的 关于 客户 的 信息 。 概 要 以 可 用 的 数据 为 基础 ， 这 笔 数据 可 能 存 
在 于 数据 仓库 中 ， 也 可 能 存在 于 操作 系统 中 ， 有 一 些 可 能 是 由 外 部 厂商 提供 。 当 进行 预言 性 
建 模 的 时 候 ， 识 别 目 标 变量 的 来 源 特 别 重要 。 

第 二 个 步骤 是 识别 客户 。 在 某 些 情形 中 ， 客 户 停留 在 账户 层次 。 在 其 他 情形 中 ， 客 户 处 
于 个 体 或 家 庭 层 次 。 在 某 些 情形 中 ， 客 户 特征 标识 可 能 与 某 个 人 一 点 关系 也 没有 。 举 例 来 
说 ， 我 们 已 经 使 用 客户 特征 标识 来 了 解 产 品 、 邮 政 编码 和 县 ， 尽 管 客户 特征 标识 最 普通 的 用 
途 是 账户 和 家 庭 。 

一 旦 客户 被 识别 ， 数 据 来 源 需要 被 映射 到 客户 层次 。 这 可 能 需要 另外 的 查找 表 (lookup 
table) ， 例 如 ， 把 账户 转换 到 家 庭 。 在 已 有 的 数据 中 发 现 客户 是 不 可 能 的 。 在 这 种 情形 下 ， 
需要 再 次 访问 客户 定义 。 

构建 客户 特征 标识 的 关键 是 从 简单 开始 ， 并 且 逐 步 发 展 。 按 照 将 数据 源 映 射 到 客户 的 难 
易 程 度 ， 对 它们 进行 优先 排序 。 从 最 容易 的 一 个 开始 ， 并 且 用 它 建 立 客户 特征 标识 。 在 加 入 
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所 有 数据 之 前 ， 也 可 以 使 用 客户 特征 标识 。 当 等 待 比较 复杂 的 数据 转换 (data transforma- 
tion) 时 ， 开 始 做 并 且 理 解 什么 是 可 用 的 。 当 从 交易 中 构建 客户 特征 标识 时 ， 确 保 得 到 与 特 
定 客户 相关 联 的 全 部 交易 。 


识别 正在 使 用 的 客户 定义 


gp 复制 客户 的 大 多 数 最 近 输 
入 数据 快照 


mpg 对 某 些 数据 元 素 ， 使 用 转 
ee 轴 产 生 多 个 月 的 数据 


人 种 乓 ”对 预测 时 段 计算 流失 标志 


”重新 考察 客户 定义 


轿 国 合并 其 他 的 数据 源 


增加 衍生 变量 


图 17-7 构建 客户 特征 标识 是 一 个 反复 的 过 程 ; 按部就班 地 从 小 的 开始 ， 
贯穿 整个 过 程 ， 如 同 在 本 例 中 为 流失 预测 构建 客户 特征 标识 一 样 


17.2.1 编写 数据 目录 


在 移动 通信 公司 ， 数 据 挖 掘 工作 组 想 要 开发 内 部 的 流失 模型 。 这 个 流失 模型 给 定 一 个 月 
的 延迟 时 间 来 预测 一 个 月 的 流失 。 因 此 ， 如 果 二 月 的 数据 可 用 ， 那 么 流失 预测 的 是 四 月 份 。 
这 种 模型 为 收集 数据 以 及 给 新 客户 评分 提供 时 间 ， 因 为 有 时 二 月 的 数据 在 三 月 的 某 个 时 间 才 
能 得 到 。 

在 这 家 公司 ， 客 户 特 征 标识 有 几 个 潜在 的 数据 来 源 。18 个 月 的 历史 数据 全 部 保留 在 数 
据 存储 库 中 。 基 本 上 ， 每 个 文件 是 月 末 结 束 时 操作 系统 转 储 到 数据 存储 库 的 快照 。 

UNIT_MASTER 文件 包含 服务 中 每 个 电话 号 码 的 描述 ， 以 及 在 月 末 时 了 解 的 电话 号 码 
的 快照 。 在 这 个 文件 中 ， 作 为 字段 的 例子 是 电话 号 码 、 账 单 账 户 、 电 话 套餐 、 移 动 电话 型 
号 、 最 后 发 送 账单 日 期 和 最 后 付款 。 

TRANS_MASTER 文件 包含 在 每 个 月 期 间 发 生 在 特定 电话 号 码 的 每 笔 交 易 。 这 些 是 账 
户 层次 的 交易 ， 包 括 连接 、 切 断 、 移 动 电话 升级 等 。 

BILL_MASTER 文件 在 账户 层次 描述 账单 信息 。 多 个 移动 电话 可 能 被 附加 到 相同 的 账 
单 账户 上 ， 特 别 是 那些 商业 客户 和 使 用 家 庭 电话 套 餐 的 客户 。 

虽然 其 他 的 数据 来 源 在 这 家 公司 是 可 用 的 ， 但 是 不 会 立刻 突出 用 于 客户 特征 标识 。 举 例 
来 说 ， 一 个 来 源 是 呼叫 的 详细 记录 ， 即 每 个 电话 呼叫 的 记录 ， 对 预测 流失 是 有 用 的 。 虽 然 这 
笔 数据 最 终 被 数据 挖掘 工作 组 使 用 ， 但 却 不 是 最 初 工作 的 组 成 部 分 。 


17.2.2 识别 客户 
数据 是 现实 世界 的 典型 代表 。 虽 然 数据 关注 点 可 能 在 某 一 类 客户 上 ， 但 数据 有 多 个 群 
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体 。 后 面 “ 居 民 客 户 和 商务 客户 ”部 分 谈论 这 两 者 之 间 的 区 别 。 

在 这 个 例子 中 谈 到 的 商业 问题 是 流失 。 如 图 17-8 所 示 ， 客 户 数据 模型 相当 复杂 ， 导 致 
客户 定义 有 不 同 选择 : 

“电话 号 码 

“客户 身份 标识 〈ID) 

*。 账单 账户 

然而 ， 这 就 是 真实 世界 ， 重 要 的 是 记 住 这些 关 系 是 复杂 的 ， 并 且 随 时 间 变 化 。 客 户 可 能 
变换 电话 号 码 ， 电 话 可 能 被 加 到 账户 或 从 账户 中 删除 ， 客 户 可 能 改变 移动 电话 ， 等 等 。 为 了 
构建 客户 特征 标识 ， 决 策 是 使 用 电话 号 码 ， 因 为 这 正 是 企业 报告 流失 的 手段 。 


销售 代表 总 监 中 销售 代表 总 监 


图 17-8 客户 模型 是 复杂 的 ， 并 且 考虑 销售 、 账 单 和 业务 分 层 信 息 


居民 客户 和 商务 客户 

通常 ， 数 据 挖 气 工 作 集 中 于 一 种 客户 类 型 ， 例 如 居民 客户 或 小 企业 。 然 而 ， 所 有 客户 的 
数据 时 常 在 操作 系统 和 数据 仓库 中 混杂 在 一 起 。 通 常 ， 有 很 多 方法 区 别 这 些 客户 的 类 型 : 

。 时 常 有 客户 类 型 字段 ， 取 值 像 “ 居 民 ” 和 “小 企业 ”。 

。 可 能 有 一 个 销售 分 层 ; 某 些 销售 渠道 是 商务 专用 ， 而 其 他 一 些 是 居民 专用 。 

。 有 些 电话 套餐 只 适用 于 企业 ; 而 有 些 只 适用 于 居民 客户 。 

。 可 能 有 一 些 企业 规则 ， 因 此 超过 两 条 线 的 任何 客户 被 看 做 企业 。 

这 些 例 子 阐 述 这 样 一 个 事实 ， 有 几 种 不 同 的 典型 规则 可 以 区 分 不 同 的 客户 类 。 假 设 机 会 
是 不 一 致 的 ， 大 多 数 的 数据 来 源 不 会 无 效 。 不 同 的 规则 选择 不 同 的 客户 子 集 。 

这 是 问题 吗 ? 那 要 依赖 所 工作 的 特定 模型 。 希 望 的 是 规则 都 非常 接近 ， 因 此 ， 根 据 一 条 
规则 包括 进来 或 错过 ) 的 客户 本 质 上 与 根据 其 余 规则 包括 的 客户 是 相同 的 。 重 要 的 是 调查 
这 是 否 是 真实 地 ， 以 及 何 时 规则 是 不 一 致 的 。 

在 实践 中 常常 发 生 的 是 规则 之 一 居 支 配 地 位 ， 因 为 这 就 是 企业 的 组 织 方式 。 因 此 ， 客 户 
类 型 可 能 是 重要 的 ， 销 售 分 层 或 许 更 重要 ， 因 为 这 与 不 同 的 客户 片段 负责 人 相对 应 。 

在 企业 和 居民 之 间 的 差别 对 于 潜在 客户 和 客户 同等 重要 。 一 家 长 途 电 话 公司 看 到 网 络 上 
的 很 多 呼叫 是 由 其 他 电信 公司 的 客户 呼出 。 交 换 机 生成 了 呼叫 明细 记录 ， 包 括 呼出 号 码 和 目 
标号 码 。 任 何不 属于 现 有 客户 的 家 庭 号 码 就 是 一 位 潜在 客户 。 一 家 长 途 电话 公司 建立 客户 特 
征 标识 ， 来 描述 未 知 电话 号 码 随 时 间 变 化 的 行为 ， 追 踪 诸 如 该 号 码 出 现 的 频繁 程度 ， 在 一 天 
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的 某 个 时 间或 者 一 周 的 哪些 天 是 相当 活跃 ， 以 及 典型 的 呼叫 持续 时 间 。 此 外 ， 这 种 客户 特征 
标识 可 用 来 获得 未 知 电话 号 码 是 企业 客户 的 可 能 性 ， 因 为 企业 客户 和 居民 客户 被 不 同 的 优惠 
服务 所 吸引 。 

如 果 目 的 是 为 居民 客户 构建 模型 ， 一 种 简化 是 ， 仅 仅 关 注 只 有 一 个 电话 号 码 的 客户 账 
号 ， 这 是 开始 简化 数据 模型 的 一 种 好 方法 。 如 果 目 标 是 为 企业 客户 构建 模型 ， 更 好 的 客户 层 
次 是 账单 账户 层次 ， 因 为 企业 客户 时 常 将 移动 电话 和 电话 号 码 打 开 和 关闭 。 然 而 ， 在 这 种 情 
况 下 ， 流 失意 味 着 取消 整个 账户 ， 而 不 是 单个 电话 号 码 。 对 于 那些 只 有 一 条 电话 线路 的 居民 
客户 来 说 ， 这 两 种 情形 是 相同 的 。 


17.2.3 第 一 次 尝试 


为 了 建立 客户 特征 标识 ， 第 一 次 尝试 需要 集中 在 最 简单 的 数据 源 。 在 这 种 情况 下 ， 最 简 
单 的 数据 来 源 是 UNIT _MASTER 文件 ， 它 在 电话 号 码 层次 上 方便 地 存储 数据 ， 这 个 层次 
正 是 客户 特征 标识 所 用 的 层次 。 

值得 指出 的 是 ， 这 个 文件 和 客户 定义 存在 两 个 问题 : 

。 客 户 可 能 改变 电话 号 码 

。 电 话 号 码 可 能 被 重新 分 配给 新 客户 

这 些 问 题 将 会 在 稍 后 的 部 分 讨论 ; 第 一 个 客户 特征 标识 是 在 电话 号 码 层 次 上 开始 。 用 来 
构建 客户 特征 标识 的 过 程 分 为 四 步 : 识别 时 间 帧 〈time frame)， 创 建 最 近 的 快照 ， 转 轴 
(pivoting) 列 和 计算 目标 。 

1. 识别 时 间 帧 

在 构建 客户 特征 标识 时 ， 第 一 次 尝试 需要 考虑 数据 的 时 间 帧 ， 正 如 第 3 章 中 的 讨论 。 图 
17-9 显示 这 笔 数 据 的 模拟 时 间 图 表 。 最 终 的 模型 集中 应 该 至 少 包含 一 个 以 上 的 时 间 帧 。 然 
而 ， 第 一 次 尝试 只 关注 一 个 时 间 帧 。 


本 
民 2 天 击 汪 二 
| 


| 模型 集 ，， 沾 三 吕 | 吕 吉 
模 邢 集 “| _ | | 


图 17-9 ”一 个 模拟 时 间 图 表 ， 展 示 了 创建 客户 特征 标识 时 的 输入 列 和 目标 的 时 间 帧 


时 间 帧 定义 了 在 8 月 份 一 个 月 期 间 的 流失 。 所 有 输入 数据 都 至 少 来 自 一 个 月 以 前 。 为 了 
提供 一 个 月 的 等 待 时 间 ， 和 截止 日 期 是 6 月 30 日 。 

2-. 获得 最 近 的 快照 

数据 的 最 近 快 照 按 照 截 止 日 期 定义 。 客 户 特 征 标 识 中 的 这 些 字段 描述 了 在 客户 流失 (或 
没有 流失 ) 之 前 ， 已 知 的 关于 客户 的 最 近 信息 。 

这 是 来 自 6 月 份 的 UNIT _ MASTER 文件 的 一 组 字段 ， 如 移动 电话 类 型 、 电 话 套餐 ， 
等 等 。 当 填充 客户 特征 标识 的 时 候 ， 考 虑 时 间 帧 是 重要 的 。 为 避免 混乱 ， 可 以 使 用 命名 规 
则 。 在 本 案例 中 ， 所 有 的 字段 可 能 都 有 一 个 后 缀 “_ 01”， 表 明 它 们 来 自 最 近 一 个 月 的 输入 
数据 。 

提示 : 当 构 建 客户 特征 标识 的 时 候 ， 使 用 命名 规则 表明 每 个 变量 的 时 间 帧 。 举 例 来 说 ， 
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最 近 一 个 月 的 输入 数据 可 能 有 “_ 01” 后 缓 ; 在 此 之 前 的 一 个 月 ， 后 缀 为 “- 02”; 依 

此 类 推 。 

此 时 ， 关 于 该 字段 知之 甚 少 ， 因 此 描述 性 的 信息 是 有 用 的 。 举 例 来 说 ， 电 话 套餐 可 能 有 
一 个 描述 ， 如 每 月 的 基数 、 每 分 钟 的 费用 ， 等 等 。 所 有 这 些 特征 是 值得 关注 的 ， 并 且 对 建 模 
有 潜在 价值 ， 因 此 ， 把 它们 引入 模型 集 是 合理 的 。 昌 然 描 述 不 会 用 于 建 模 (代码 更 好 些 )， 
但 是 能 够 帮助 数据 挖掘 者 理解 数据 。 

3. 转轴 列 

在 UNIT_MASTER 文件 中 ， 一 些 字 段 代表 在 正则 时 间 序 列 (regujar time series) 中 报 
告 的 数据 。 举 例 来 说 ， 在 账单 数量 中 每 个 月 有 一 个 值 ， 并 且 每 个 值 需要 放 人 单独 的 列 中 。 这 
些 列 来 自 UNIT _MASTER 的 不 同 记录 ， 一 列 代 表 6 月 ， 一 列 代 表 5 月 ， 一 列 代表 4 月 ， 等 
等 。 例 如 ， 使 用 命名 规则 ， 字 段 将 会 是 : 

。Last _billed _amount _01 代表 6 月 (可 能 已 经 在 快照 内 ) 

。Last _billed _amount _ 02 代表 5 月 

。Lastbilled _ amount _03 代表 4 月 

此 时 ， 客 户 特 征 标识 开始 形成 。 虽 然 输入 字段 只 是 来 自 一 个 来 源 ， 适 当 的 字段 已 经 适时 
地 被 选 为 输入 并 且 被 及 时 排列 。 

4. 计算 目标 

对 于 预言 性 建 模 ， 客 户 特征 标识 没有 目标 变量 是 不 可 能 有 用 的 。 有 既然 客户 特征 标识 将 被 
用 于 流失 模型 ， 目 标 需 要 是 客户 是 否 在 8 月 份 流失 。 在 8 月 的 UNIT_MASTER 记录 中 ,这 
是 账户 状态 字段 。 注 意 ， 只 有 在 6 月 30 日 或 之 前 活 牙 的 客户 被 包含 在 模型 集中 ; 不 包含 7 
月 开始 、8 月 取消 的 客户 。 


17.2.4 取得 进展 


客户 特征 标识 尽管 相当 不 完善 ， 但 现在 已 经 可 以 在 模型 集中 使 用 。 由 于 有 明确 定义 的 时 
闻 帧 、 目 标 变量 和 输入 变量 ， 它 是 实用 的 ， 至 少 最 低 程度 是 这 样 。 虽 然 客户 特征 标识 是 有 用 
的 ， 是 良好 的 起 点 ， 但 遗漏 了 几 件 事 情 。 

首先 ， 客 户 定义 没有 考虑 电话 号 码 的 变化 。 因 为 TRANS _MASTER 文件 追踪 客户 账户 
的 变化 类 型 ， 所 以 它 解决 了 这 个 问题 。 为 修复 客户 的 定义 ， 需 要 创建 一 个 表格 ， 包 含 账户 的 
最 初 电话 号 码 (或 许 带 有 一 个 计数 器 ， 因 为 电话 号 码 可 能 实际 上 被 重复 使 用 )。 在 这 张 表格 
中 ， 一 个 典型 的 行 会 有 以 下 列 : 

*。 电话 号 码 

。 有 效 日 期 

*。 结束 日 期 

。 惟 一 的 客户 标识 符 

利用 这 张 表格 ， 客 户 标识 符 能 代替 电话 号 码 使 用 ， 因 此 ， 客 户 特征 标识 对 电话 号 码 的 变 
化 明 察 秋 亳 。 

客户 特征 标识 的 另 一 个 缺点 是 它 只 依赖 于 一 个 数据 源 。 应 该 增加 另外 的 数据 源 ， 每 次 增 
加 一 个 ， 以 建立 客户 行为 的 更 丰富 的 客户 特征 标识 。 模 型 集 只 有 数据 的 一 个 时 间 帧 ， 更 多 的 
时 间 帧 可 以 使 模型 更 稳定 。 这 个 客户 特征 标识 也 缺乏 衍生 变量 ， 它 是 本 章 其 余 许 多 部 分 讨论 
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的 主题 。 
17.2.5 实际 的 问题 


当 构 建 客 户 特征 标识 的 时 候 ， 会 遇 到 一 些 实际 的 问题 。 客 户 特征 标识 时 常 把 最 大 的 数据 
源 合 在 一 起 ， 并 且 在 其 上 进行 复杂 的 操作 。 这 在 计算 资源 方面 成 为 一 个 问题 。 虽 然 结果 模 型 
集 可 能 至 多 有 数 十 或 数 百 兆 字 节 ， 但 是 被 汇总 的 数据 可 能 是 数 千 倍 之 大 。 因 此 ， 最 好 在 关系 
数据 库 中 尽 可 能 地 多 做 处 理 ， 因 为 这 些 操作 能 同时 利用 多 个 处 理 器 和 若干 磁盘 。 

虽然 最 后 得 到 的 查询 较 复 杂 ， 但 是 整合 客户 特征 的 多 数 工 作 可 以 用 SQL 或 数据 库 脚 本 
语言 进行 。 这 是 有 用 的 ， 不 仅 因 为 它 提 高 效率 ， 而 且 因为 代码 只 存储 在 一 个 地 方 ， 即 减少 错 
误 的 可 能 性 ， 以 及 发 现 缺 陷 (bug) 的 能 力 。 二 者 择 其 一 ， 数 据 可 以 从 源 中 抽取 ， 然 后 拼凑 
起 来 。 和 逐渐 地 ， 数 据 挖 掘 工具 能 够 更 好 地 利用 数据 。 然 而 ， 这 通常 需要 一 定数 量 的 编程 ， 例 
如 ， 使 用 编程 语言 SAS、SPSS、S-_Plus 或 者 Perl。 附 加 处 理 不 仅 增 加 工作 的 时 间 ， 而 且 引 出 
第 二 个 层次 ， 在 这 个 层次 ， 缺 陷 可 能 会 悄悄 混和 人 。 

当 创建 客户 特征 标识 的 时 候 ， 意 识 到 数据 控 掘 是 一 个 反复 、 时 常 需要 重建 客户 特征 标识 
的 过 程 是 重要 的 。 一 个 好 的 方法 是 ， 为 从 数据 源 抽取 数据 的 一 个 时 间 帧 建立 模板 ， 然 后 多 次 
进行 抽取 ， 产 生 模 型 集 。 对 于 评分 集 ， 可 以 应 用 同样 的 程序 ， 因 为 评分 集 与 模型 集 非 常 
类 似 。 


17.3 ”探查 变量 


数据 探查 〈data exploration) 与 数据 挖 据 过 程 高 度 相 关 。 在 许多 情形 下 ， 数 据 挖 据 和 数 
据 探查 是 实现 共同 目标 而 又 相互 补充 的 方法 。 数 据 挖掘 倾 向 于 突出 发 现 模式 的 有 意义 的 算 
法 ， 而 数据 探查 更 关注 表现 数据 ， 从 而 使 人 们 能 够 赁 直觉 获知 模式 。 当 交流 结果 的 时 候 ， 显 
示 正 在 发 生 事情 的 精美 图 片 时 常 比 单调 乏味 的 数字 表格 更 有 效 。 类 侯 地 ， 当 为 数据 挖掘 准备 
数据 的 时 候 ， 查 看 数据 可 以 提供 正在 发 生 的 事情 的 这 入 了 解 ， 这 种 深入 了 解 有 助 于 改进 
模型 。 


17.3.1 直方 图 分 布 


当 查 看 数据 的 时 候 ， 开 始 的 地 方 是 每 个 域 的 直方 图 ; 直方 图 展示 了 域 中 数值 的 分 布 。 实 
际 上 ， 因 为 直方 图 计算 出 现 次 数 ， 而 分 布 是 归 一 化 的 ， 所 以 在 直方 图 和 分 布 之 间 有 细微 的 不 
同 。 可 是 ， 就 我 们 的 目标 而 言 ， 相 似 性 更 加 重要 ， 直 方 图 和 分 布 〈 或 者 严格 地 来 说 ， 与 分 布 
相关 联 的 密度 函数 ) 有 相似 的 形状 ， 只 是 立轴 的 标 度 有 变化 。 

大 多 数 数据 挖 据 工 具 提 供 将 单一 变量 的 值 呈 现 为 直方 图 的 能 力 。 纵 轴 表 示 每 个 数值 在 样 
本 中 出 现 的 次 数 ， 横 轴 表 示 各 种 不 同 的 数值 。 

当 创 建 直方 图 时 ， 数 值 型 变量 时 常 被 分 箱 。 为 了 探查 变量 ， 这 些 箱 子 应 该 是 等 宽 而 不 等 
高 的 。 需 要 记 住 的 是 ， 等 高 分 箱 产生 的 箱包 含 相同 的 数值 个 数 。 包 含 相似 记录 数 的 箱 对 建 模 
是 有 用 的 ， 然 而 ， 对 理解 变量 本 身 没 有 太 大 的 用 处 。 


17.3.2 随时 间 变 化 
当时 间 元 素 注 人 到 直方 图 的 时 候 ， 也 许 最 具有 启迪 作用 的 信息 开始 显露 。 在 这 种 情况 
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下 ， 只 有 单个 变量 的 一 个 数值 被 应 用 。 图 表 显 示 ， 这 个 数值 出 现 的 频率 如 何 随 时 间 改 变 。 

作为 例子 ， 图 17-10 中 的 图 表 十 分 清楚 地 展示 了 关于 数值 “DN” 在 三 月 期 间 发 生 的 事 
情 。 这 类 模式 是 很 重要 的 。 在 这 种 情况 下 ， 当 两 个 不 同 的 系统 被 合并 的 时 候 ,“DN” 表 示 需 
要 消除 的 重复 账号 。 事 实 上 ， 只 有 在 见 到 这 种 模式 和 询问 在 这 期 间 发 生 的 事情 的 问题 之 后 ， 
才 困 难 地 做 出 这 个 解释 。 


10 000 
8 000 


| 才 
OD 
8 


时 尊 


标准 差 


时 间 


图 17-10 这 个 直方 图 意味 着 对 于 这 个 停止 代码 ， 不 寻常 的 事情 正在 发 生 。 
在 顶部 的 图 表 中 是 原始 数据 ， 而 下 面 的 图 表 中 是 标准 化 的 数值 


图 表 的 顶部 表示 原 值 ， 并 且 可 能 是 相当 有 用 的 。 底 部 表示 标准 化 的 数值 。 在 两 个 图 表 
中 ， 曲 线 的 形状 也 相同 ; 惟一 的 不 同 是 垂直 方向 的 标 度 。 需 要 记 住 的 是 ， 标 准 化 数值 把 它们 
转换 成 偏离 均值 的 标准 差 ， 因 此 在 -2 到 2 范围 外 的 数值 是 不 寻常 的 ; 小 于 -3 或 者 大 于 3 
的 值 应 该 是 非常 稀少 的 。 同 一 数据 的 可 视 化 显示 ， 顶 峰 变 出 期 望 值 许多 个 标准 差 一 一 14 个 
标准 差 非常 令 人 费解 。 这 种 随机 发 生 的 似 然 性 是 如 此 有 迁 远 ， 以 致 于 图 表 暗 示 某 种 外 部 的 事情 
正在 影响 变量 ， 如 以 前 两 个 计算 机 系统 的 合并 等 外 部 事件 ， 如 何 创建 了 重复 的 账号 。 

按照 时 间 创 建 一 个 交叉 表 并 不 困难 。 然 而 不 幸 的 是 ， 在 数据 控 气 工具 中 ， 对 于 这 类 图 表 
没有 很 多 支持 。 在 Excel 中 ， 或 在 SAS、SPSS、S_Plus 中 ， 或 几乎 任何 其 他 程序 语言 中 ， 很 
容易 用 儿 行程 序 产 生 这 类 图 表 。 问 题 就 是 需要 许多 这 种 图 表 ， 如 对 每 一 分 类 变量 的 每 个 取 值 
都 需要 一 个 图 表 。 例 如 下 列 情况 : 

。 按 时 间 开 设 的 不 同类 型 账户 。 

。 客户 按时 间 停 止 的 不 同 理由 。 

。 某 种 地 理 布局 随时 间 的 特征 。 

。 不 同 渠 道 随 时 间 的 特征 。 

这 些 图 表 及 时 清晰 地 展现 过 去 ， 它 们 引出 何 时 发 生 何事 的 问题 。 对 于 发 现 特别 的 有 效 组 
合 ， 它 们 可 能 是 有 用 的 。 这 种 组 合 在 其 他 情况 下 可 能 不 明显 ， 如 “ 噢 ， 在 我 们 开展 电子 邮件 
活动 之 后 ， 网 络 标语 的 点 击 率 在 上 升 。” 
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17.3.3 ”交叉 表 


查看 随时 间 变 化 的 变量 可 以 使 用 交叉 表 。 一 般 说 来 ， 交 叉 表 可 以 展示 两 个 变量 相对 于 彼 
此 发 生 的 频繁 程度 。 图 17-11 显示 了 两 个 变量 之 间 的 交叉 表 ， 即 渠道 和 信用 卡 支付 变量 。 泡 
的 大 小 显示 在 该 渠道 中 开始 采用 该 种 支付 方法 的 客户 比例 。 这 里 的 数据 对 应 于 表 17-2 所 示 
数据 。 


DM 


TM 
表 17-2 ”支付 方式 和 渠道 的 交叉 表 
信用 卡 直接 账单 
DM 69 126 51 481 
TM 50 105 249 208 
Web 67 830 29 608 


Web 


信用 卡 直接 付 账 
图 17-11 交叉 表 表 示 变 量 之 间 的 关系 


没有 时 间 的 交叉 表 表 示 静 态 图 像 而 不 是 趋势 。 这 是 有 用 的 ， 但 通常 来 说 ， 趋 势 信息 更 
有 用 。 
17.4 衍生 变量 

在 本 章 和 整 本 书 中 ， 已 经 列举 许多 衍生 变量 (derived variable) 的 例子 。 这 种 变量 被 预 
处 理 ， 使 得 数据 挖掘 算法 将 它们 纳入 到 模型 变 得 更 容易 。 也 许 更 重要 的 是 ， 衡 生变 量 使 领域 
知识 纳入 数据 挖掘 过 程 成 为 可 能 。 把 领域 信息 放 人 数据 ， 以 便 数据 挖掘 算法 能 使 用 它 找 到 
模式 。 

增加 变量 对 任何 成 功 的 数据 挖掘 工程 是 一 项 核心 任务 ， 详 细 地 查看 计算 衍生 变量 的 6 种 
基本 方法 是 值得 的 。 这 6 种 方法 是 : 

。 提 取 来 自 单个 数值 的 特征 

* 在 记录 内 合并 数值 (其 中 包括 用 于 捕获 趋势 ) 

。 在 另外 一 张 表 中 ， 查 找 辅助 信息 

。 选 择 多 个 列 中 依赖 数据 的 主 元 

。 汇 总 交易 记录 

“汇总 跨越 模型 集 的 字段 

以 下 部 分 讨论 这 些 方法 ， 给 出 一 些 衍生 变量 的 例子 ， 并 且 突 出 计算 重点 。 


17.4.1 提取 来 自 单 个 数值 的 特征 


从 计算 上 来 看 ， 因 为 所 有 需要 的 数据 都 呈现 为 单一 数值 ， 所 以 分 析 数 值 是 非常 简单 的 操 
作 。 虽 然 它 很 简单 ， 但 相当 有 用 ， 如 下 面 的 例子 所 示 : 
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“从 日 期 计算 每 周 的 某 天 

。 从 信用 卡号 码 提取 信用 卡 发 行者 的 代码 

*。 获得 邮政 编码 前 三 个 数字 

“从 和 车辆 识别 码 (VIN) 中 确定 车 辆 制造 商 的 代码 

“ 当 一 个 字段 委 失 的 时 候 ， 增 加 一 个 标志 

这 些 操作 常常 是 需要 数据 挖掘 工具 能 够 处 理 的 基本 操作 。 不 幸 的 是 ， 许 多 统计 工具 把 重 
点 放 在 数值 型 数据 上 ， 而 不 是 在 商业 数据 中 时 常 遇 到 的 字符 串 、 日 期 和 时 间 ， 因 此 字符 串 操 
作 和 日 期 计算 可 能 是 困难 的 。 在 这 种 情况 下 ， 可 能 需要 在 预 处 理 阶 段 或 者 从 数据 源 提取 数据 
时 增加 这 些 变量 。 


17.4.2 在 记录 内 合并 数值 


正如 来 自 单一 数值 的 特征 提取 ， 从 计算 角度 看 ， 在 记录 内 合并 数值 也 是 简单 的 一 不 是 
使 用 一 个 变量 ， 而 是 有 几 个 变量 。 大 多 数 数 据 挖掘 工具 支持 增加 衍生 变量 ， 合 并 来 自 几 个 字 
段 的 数值 ， 特 别 是 对 于 数值 型 字段 。 这 对 于 增加 比率 、 求 和 、 求 平均 数 等 可 能 非常 有 用 。 对 
建 模 来 说 ， 这 种 导出 数值 比 原始 数据 通常 更 有 用 ， 因 为 这 些 变量 开始 捕捉 潜在 客户 的 行为 。 
日 期 宇 段 时 常 被 合并 。 取 两 个 日 期 的 差 计算 持 续 时 间 也 是 十 分 普遍 和 有 用 的 例子 。 

通常 情况 下 ,合并 字符 串 字 段 不 是 必要 的 ， 除 非 字 段 以 某 种 方式 相关 。 举 例 来 说 ， 将 
“信用 卡 类 型 ”与 “信用 卡 支付 标识 ”结合 可 能 是 有 用 的 ， 这 样 ， 就 有 一 个 字段 表示 支付 
类 型 。 


17.4.3 查找 辅助 信息 


查找 辅助 信息 是 比 前 面 两 种 计算 更 复杂 的 过 程 。 查 找 是 将 两 张 表格 合并 在 一 起 〈 使 用 关 
系数 据 库 的 术语 ) 的 例子 ， 按 照 简化 的 原则 ， 一 张 表格 是 大 的 ， 另 一 张 表格 相对 较 小 。 

当 查 找 表 足够 小 的 时 候 ， 如 表 17-3 所 示 ， 它 描述 了 信用 卡号 前 几 位 数字 与 信用 卡 类 型 
之 间 的 映射 ， 一 个 简单 的 公式 对 于 查找 就 足够 了 。 


表 17-3 信用卡 前 秀 
卡 类 型 前 绥 长 度 
MasterCard S1 16 
MasterCard 2 16 
MasterCard 53 16 
MasterCard 54 16 
MasterCard 55 16 
Visa 4 13 
Visa 4 16 
American 下 xpress 34 13 
American Express 37 1S 
Diners Club 300 .14 
Diners Club 301 14 


Diners Club 302 14 
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( 续 ) 
卡 类 型 前 组 长 度 
Diners Club 303 14 
Diners Club 304 14 
Diners Club 305 14 
Discover 6011 16 
enRoute 2014 只 
enRoute 2149 15 
JCB 3 16 
JCB 2131 从 
JCB 1800 15 


比较 常见 的 情形 是 带 有 信息 的 次 级 表格 或 文件 。 举 例 来 说 ， 这 张 表格 可 能 包含 : 

。 邮 政 编码 区 域 的 人 口 和 中 值 家 庭 收 入 〈 由 美国 人 口 普 查 局 www.census.gov 提供 ， 供 

美国 人 下 载 )。 

。 产 品 代码 的 分 层 。 

。 商 店 的 零售 位 置 类 型 信息 。 

不 幸 的 是 ， 对 数据 挖掘 工具 来 说 ， 通 常 没有 编程 ， 查 找 就 比较 困难 。 一 些 工具 的 确 提供 
这 种 便利 ， 如 来 自 Insightful 公司 的 LMiner， 通 常 需要 两 个 表格 都 要 按照 查找 字段 进行 排 
序 。 图 17-12 展示 了 一 个 这 样 的 例子 。 对 于 一 个 这 样 的 字段 它 是 令 人 满意 的 ， 但 是 当 需 要 查 
找 许多 不 同 的 字段 时 它 就 不 方便 了 。 大 体 上 ， 在 工具 之 外 进行 这 些 查 找 是 比较 容易 的 ， 尤 其 
是 当 查 找 表 与 初始 数据 都 来 自 数 据 库 的 时 候 。 


Execurciomn end CI: EoY 29 2003 56:50 
Tocal teXeCUEION ienD 1 SecOmGE ， d8 
六 ECFSZ{S) ， 末 电 全 TI 二 六 全 (3 
1 mode (3 XeCUt& 二 人 ICeBSELIES 


图 17-12 Insightful Miner 使 用 户 能 够 从 图 形 用 户 界面 使 用 并 且 创 建 查找 表 
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有 时 ， 查 找 表 已 经 存在 。 而 有 些 时 候 ， 要 根据 需要 创建 。 举 例 来 说 ， 一 个 有 用 的 客户 流 
失 预 报 器 是 按照 邮政 编码 统计 的 历史 流失 率 。 将 这 一 点 增加 到 客户 特征 标识 ， 需 要 对 每 个 邮 
政 编码 计算 历史 流失 率 ， 然 后 将 结果 作为 查找 表 。 

警告 : 当 使 用 数据 库 连 接 在 查找 表 中 查找 数值 时 ， 总 是 使 用 左 外 连接 ， 确 保 在 这 个 

过 程 中 没有 任何 客户 行 委 失 ! 在 SQL 中 ， 一 个 外 部 连接 如 下 : 

SELECT c. * ,1.value 

FROM (customer cC left outer join Jookup 1 on c,code =1.code) 


17.4.4 转轴 正则 时 间 序 列 


客户 数据 时 常 按 月 存储 ， 每 个 月 有 独立 的 数据 行 。 例 如 ， 由 于 大 多 数 基 于 订阅 的 公司 每 
月 一 次 向 客户 发 放 账 单 ， 账 单数 据 时 常 以 这 种 方式 存储 。 如 果 数 据 按 照 固定 的 、 定 义 好 的 区 
间 发 生 ， 这 笔 数 据 就 是 正则 时 间 序 列 的 例子 。 图 17-13 举例 说 明 把 这 笔 数据 放 和 人 客户 特征 标 
识 的 过 程 。 数 据 必 须 被 转轴 ， 以 便 开 始 以 行 组 织 的 数值 最 后 以 列 组 织 。 


图 17-13 ”对 于 每 位 客户 ， 转 轴 字 段 是 取 存 储 在 一 行 或 多 行 的 数值 ， 
把 它们 置 于 每 位 客户 的 一 行 ， 但 却 在 不 同 的 列 中 


这 通常 是 一 个 很 麻烦 的 过 程 ， 因 为 数据 挖掘 工 具 和 SQL 都 不 能 容易 地 进行 转轴 操作 。 
数据 挖掘 工具 常常 需要 编写 程序 进行 转轴 操作 。 为 了 完成 这 个 任务 ， 客 户 文件 需要 按照 客户 
身份 标识 排序 /分 类 ， 并 且 账 单 文 件 需要 按照 客户 身份 标识 和 账单 日 期 排序 /分 类 。 然 后 ， 需 
要 编写 特定 代码 来 计算 转轴 列 。 在 SAS 中 , “proc TRANSPOSE” 命 令 就 是 用 于 这 个 目的 。 
后 面 “ 用 SQL 转轴 数据 ”部 分 展示 了 在 SQL 中 如 何 进 行 转轴 操作 。 

大 多 数 企业 以 月 为 基础 存储 客户 数据 ， 通 常 是 按照 历法 月 份 。 但 有 些 行 业 显示 强烈 的 周 
周期 模式 ， 因 为 客户 在 周末 或 做 或 不 做 事情 。 举 例 来 说 ， 网 站 可 能 在 每 周 工作 日 期 间 是 最 活 
跃 的 ， 报 纸 订 阅 通常 在 星期 一 或 星期 日 开始 。 

因为 有 些 月 份 比 其 他 月 份 的 时 间 更 长 ， 所 以 周 周期 干扰 月 数据 。 考 虑 一 个 大 多 数 活动 在 
每 周 工作 日 进行 的 网 站 。 有 些 月 份 有 20 个 工作 日 ， 其 他 月 份 最 多 的 有 23 个 〈 不 包括 假日 )。 
相连 的 两 个 月 之 间 的 差 可 能 是 13% ， 这 仅仅 由 于 周 工作 日 的 数量 差别 。 考 虑 到 这 一 点 ， 将 
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每 月 活动 除 以 周 工作 日 数 ， 可 以 获得 “每 周 工作 日 活动 "。 但 是 ， 当 有 很 明显 的 周 周期 特征 
时 ， 这 才 有 意义 。 


用 SQL 转轴 数据 
对 于 转轴 数据 ，SQL 没有 很 强 的 支持 〈 虽 然 某 些 数据 库 可 能 对 这 种 能 力 有 非 标 准 的 扩 
充 )。 然 而 ， 当 使 用 标准 SQL 的 时 候 ， 转 轴 数 据 也 是 可 能 的 。 
假设 数据 由 账单 记录 组 成 ， 并 且 每 个 被 分 配 一 个 连续 的 账单 号 码 。 第 一 笔 账 单 记 为 
“1 7"， 第 二 笔记 为 “2”， 依 此 类 推 。 下 列 SQL 片段 表示 该 如 何 转轴 这 笔 数据 : 
SELECT customer id 
sum(case when bil1 _ seq = 1 then bil1 _amt end) as bill 1， 
sum(case when bil1 _ seg = 2 then bil1l _ant end) as bill 2， 
sunm(case when bil1 _seq = 3 then bill _ amt end) as bil1 3， 


FROM billing 
GROUP BY custcmer _ id 


这 个 片段 的 一 个 问题 是 不 同 的 客户 有 不 同 的 账单 周期 数 。 然 而 ， 查 询 只 能 取 因 定 的 数 
字 。 当 客户 的 账单 周期 数 比 查询 需要 更 少 的 时 候 ， 较 迟 的 周期 用 NULL 来 填充 。 
实际 上 ， 因 为 客户 特征 标识 需要 最 近 的 账单 周期 数 一 一 比如 说 ， 最 后 的 12 或 24 个 ， 所 
以 这 个 代码 片段 通常 不 是 客户 特征 标识 所 需要 的 。 对 于 活跃 的 客户 来 说 ， 这 是 最 近 的 周期 。 
然而 ， 对 于 已 经 停止 的 客户 ， 我 们 需要 考虑 他 们 的 停止 日 期 。 下 列 代码 片段 考虑 了 这 一 点 ， 
SELECT customer id， 
Sum (case when trunc(months between(bill _ date, cutoff) = 1 
then bill _amt else 0 end) as bil1 _ 1， 
sum(case when trunc(months _、 between(bill date, cutofft) = 2 
then bil1l _ ant else 0 end) as bil1l 2， 


FROM biIIing b, 
(select customer _ jd 
(case when status = 'RACTIVE then sysdate 
else stop _ date end)as cutoff 
from Customer) c 
Where b.customer _ id = c.customer jd 


GROUP BY customer _ id 


这 个 代码 片段 确实 使 用 某 些 SQL 的 扩充 来 计算 日 期 (在 这 个 例子 中 ， 这 些 被 表示 为 
Oracle 函数 )。 然 而 ， 大 多 数 数据 库 有 相似 的 函数 。 

上 述 代 码 是 一 个 杀手 查询 的 例子 ， 因 为 它 用 一 张大 的 表格 〈 客 户 表格 ) 连接 一 张 更 大 的 
表格 〈 客 户 账单 表格 ) ， 然 后 进行 分 组 操作 。 幸 运 的 是 ， 现 代数 据 库 能 很 好 地 使 用 多 个 处 理 
器 和 多 个 磁盘 ， 在 合理 的 时 间 内 完成 这 个 查询 。 


17.4.5 汇总 交易 记录 


交易 记录 是 非 正则 时 间 序 列 的 例子 ， 即 记录 会 在 任何 时 间 点 随时 发 生 。 这 种 记录 由 客户 
交互 作用 而 产生 ， 现 实 案例 有 : 
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* 自动 柜员 机 交易 

。 电 话 呼叫 

。 网 站 访问 

“。 和 零售 

当 采 用 非 正 则 时 间 序 列 开展 工作 的 时 候 ， 就 遇 到 儿 个 挑战 。 首 先 ， 交 易 量 非 常 大 。 在 如 
此 海量 的 数据 上 工作 需要 复杂 的 工具 和 强 有 力 的 计算 机 。 其 次 ， 没 有 标准 的 方法 用 于 这 项 工 
作 。 正 则 时 间 序 列 数据 有 自然 的 转轴 方法 。 而 对 于 非 正则 时 间 序 列 而 言 ， 决 定 如 何 最 好 地 汇 
总 数据 是 必需 的 。 

一 种 方法 是 ， 把 非 正则 时 间 序 列 转变 成 正则 时 间 序 列 ， 然 后 转轴 序列 。 举 例 来 说 ， 计 算 
每 个 月 呼叫 的 数量 ， 或 者 每 个 月 在 自动 柜员 机 上 提 款 的 数量 ， 然 后 按 月 转轴 总 数 。 当 处 理 交 
易 时 ， 这 些 计算 可 能 更 复杂 ， 例 如 长 度 超过 10 分 钟 的 呼叫 ， 或 者 低 于 50 美元 的 提 款 。 这 些 
特殊 的 汇总 可 能 是 相当 有 用 的 。 描 述 客户 行为 的 更 复杂 例子 将 在 下 一 节 之 后 提供 。 

另 一 种 方法 是 定义 一 组 数据 变换 ， 在 收集 交易 数据 时 运行 。 这 是 电信 行业 所 使 用 的 一 种 
方法 ， 其 中 数据 量 是 巨大 的 。 某 些 变量 可 能 是 像 使 用 的 分 钟 数 一 样 简单 ， 而 有 些 可 能 像 呼 叫 
号 码 是 企业 号 码 还 是 居民 号 码 的 评分 一 样 复杂 。 这 种 方式 使 代码 计算 非常 困难 ， 并 且 这 种 计 
算是 很 难 改变 的 。 尽 管 这 种 变量 可 能 有 用 ， 但 比较 有 弹性 的 环境 对 于 汇总 交易 数据 从 策略 上 
来 说 更 有 用 。 


17.4.6 汇总 跨越 模型 集 的 字段 


对 于 衍生 变量 ， 最 后 的 方法 是 汇总 客户 特征 标识 本 身 字段 的 值 。 有 几 个 这 种 字段 的 
例子 : 

“将 数值 分 到 同等 大 小 的 箱子 中 ， 需 要 计算 箱子 的 拆 分 点 。 

*。 标准 化 数值 〈 减 去 均值 ， 并 且 除 以 标准 差 )， 需 要 计算 字段 的 均值 和 标准 差 ， 然 后 再 

进行 计算 。 

。 排 列 数值 〈 最 小 的 数值 为 1， 第 二 小 的 数值 为 2， 依 此 类 推 ) 需要 排序 所 有 的 数值 以 

获得 分 级 。 

虽然 这 些 操 作 很 复杂 ， 但 是 它们 都 直接 在 模型 集 上 运行 。 数 据 挖掘 工具 为 这 些 操作 提供 
支持 ， 尤 其 是 对 三 者 中 最 重要 的 分 箱 数值 型 数值 。 

可 能 非常 有 用 的 一 类 分 箱 不 容易 得 到 ， 那 就 是 基于 频率 对 代码 进行 分 箱 。 例 如 ， 在 模型 
集中 保存 至 少 1000 个 实例 的 所 有 代码 ， 把 所 有 其 余 的 代码 放 在 单独 的 “其 他 ”类 中 ， 这 将 
是 有 用 的 。 这 对 于 处 理 离 群 值 是 有 用 的 ， 如 在 电话 数据 中 那些 旧 的 、 不 流行 的 移动 电话 ， 虽 
然 少数 客户 仍 使 用 它们 。 一 种 处 理 方法 是 ， 标 识 要 保存 的 移动 电话 ， 即 增加 新 的 字段 “要 分 
析 的 移动 电话 ”保存 这 些 移动 电话 ， 并 把 其 余 的 放 进 一 个 “其 他 ”类 中 。 更 自动 的 方法 是 创 
建 查找 表 来 映射 这 些 移动 电话 。 然 而 ， 也 许 更 好 的 方法 是 用 诸如 移动 电话 发 布 日 期 、 权 重 和 
使 用 特征 等 信息 替换 移动 电话 ID， 这 些 信 息 可 能 在 查找 表 中 已 经 可 用 。 


17.5 基于 行为 变量 的 例子 


本 生变 量 的 真正 力量 来 自 它 沿 着 已 知 维度 汇总 客户 行为 的 能 力 。 本 部 分 构建 已 经 展示 的 
想法 ， 并 且 给 出 三 个 有 用 的 基于 行为 变量 (behaviorbased variable) 的 例子 。 
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17.5.1 购买 频率 


从 前 ， 目 录 编 辑 设 计 了 一 种 巧妙 的 方法 ， 使 用 三 个 维度 刻画 客户 行为 ， 即 胃 新 度 (R)、 
频率 〈(F) 和 消费 金额 (M) 。 基 于 这 三 个 变量 的 RFM 至 少 自 20 世纪 70 年 代 以 来 就 已 经 被 
使 用 。 客 户 行为 的 这 三 种 描述 中 ， 胃 新 度 通 常 是 最 具 预 言 性 的 ， 但 频率 是 最 值得 关注 的 。 田 
新 度 只 是 意味 着 客户 自 购买 以 来 的 时 间 长 度 。 比 较 传统 的 是 ， 消 费 金 额 是 购买 的 总 量 〈 虽 然 
我 们 已 经 发 现 ， 由 于 总 数 与 频率 高 度 相 关 ， 平 均 购 买 量 更 有 用 )。 

在 传统 的 RFM 分 析 中 ， 频 率 只 是 购买 的 次 数 。 然 而 ， 简 单 的 计数 不 能 很 好 地 刻画 客户 
行为 。 有 一 些 其 他 确定 频率 的 方法 ， 并 且 这 些 方 法 可 以 应 用 于 与 目录 购买 不 相关 的 其 他 领 
域 ， 包 括 抱怨 频率 、 打 国际 长 话 的 频率 ， 等 等 。 重 要 的 是 ， 客 户 可 能 在 不 规则 的 时 间 区 间 完 
成 行为 ， 我 们 之 所 以 要 刻画 这 种 行为 模式 ， 是 因为 它 提供 关于 客户 的 潜在 有 用 的 信息 。 

计算 频率 的 一 种 方法 是 获得 历史 数据 给 出 的 时 间 长 度 ， 然 后 除 以 客户 购买 的 次 数 。 因 
此 ， 如 果 目 录 数 据 追 回 到 6 年 前 ， 并 且 客 户 只 进行 了 一 次 购买 ， 那 么 频率 就 是 每 6 年 一 次 。 

这 个 方法 尽管 简单 ， 却 丢失 了 重要 的 一 点 。 考 虑 下 面 两 位 客户 : 

“约翰 在 6 年 以 前 有 一 次 购买 ， 并 且 从 此 以 后 收 到 每 个 目录 。 

。 玛丽 刚 刚 在 上 个 月 进行 了 一 次 购买 ， 那 时 她 第 一 次 收 到 目录 。 

认为 这 两 位 客户 有 相同 的 频率 有 道理 吗 ? 答案 是 不 。 很 明显 约翰 的 频率 是 每 6 年 不 超过 
一 次 ， 而 玛丽 仅仅 在 上 个 月 才 有 机 会 进行 购买 ， 因 此 ， 她 的 频率 的 更 精确 描述 应 该 是 每 月 一 
次 。 关 于 频率 首要 的 一 点 是 ， 应 该 从 客户 有 机 会 购买 的 那 一 点 进行 测量 。 

还 存在 另 一 个 问题 。 关 于 约翰 和 玛丽 ， 我 们 真正 知道 的 是 他 们 的 频率 分 别 是 不 超过 每 6 
年 一 次 和 每 月 一 次 。 从 历史 角度 看 ， 一 次 观察 不 足以 得 出 真正 的 频率 。 这 实际 上 是 一 个 时 间 
与 事件 问题 ， 就 像 在 第 12 章 中 讨论 的 一 样 。 

我 们 这 里 的 目标 是 用 衍生 变量 刻画 频率 ， 而 不 是 预测 下 一 事件 〈 使 用 生存 分 析 是 最 好 的 
途径 )。 为 了 达到 这 一 目的 ， 假 设 有 两 个 或 更 多 的 事件 ， 事 件 之 间 的 平均 时 间 是 总 的 时 间 间 
隔 除 以 事件 数 减 1， 如 图 17-14 所 示 。 它 提供 了 在 事件 发 生 期 间 ， 事 件 之 间 的 平均 时 间 。 


购买 


当前 时 间 


A : 时 间 


出 频率 是 2(C-A)， 但 是 不 包括 C 之 后 的 时 间 


频率 是 3C， 但 是 不 包括 C 之 后 的 时 间 


频率 是 3(D-A)， 但 是 数据 是 审查 过 的 


频率 是 37D， 但 是 数据 是 审查 过 的 
图 17-14 ”没有 完美 的 方法 来 估算 频率 ， 但 这 四 种 方法 都 是 合理 的 
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对 频率 问题 没有 完美 的 解决 办 法 ， 因 为 客户 事件 无 规律 地 发 生 ， 而 且 也 无 法 预知 在 未 来 
数据 被 审查 时 会 发 生 什么 事情 。 取 第 一 个 事件 到 最 近 事件 的 时 间 间 隔 引 发 一 个 问题 ， 即 所 有 
事件 都 在 很 久 以 前 发 生 的 客户 可 能 有 很 高 的 频率 。 可 以 选择 的 办 法 是 取 第 一 个 事件 发 生 以 来 
的 时 间 ， 本 质 上 假定 当前 是 一 个 事件 。 这 没有 问题 ， 因 为 下 一 个 事件 是 未 知 的 ， 而 且 当 处 理 
审查 数据 时 必须 小 心 。 实 际 上 ， 取 第 一 件 事件 以 来 总 时 间 间 隔 〈 或 客户 活跃 的 时 间 间 隔 ) 除 
以 可 能 发 生 的 事件 数 是 最 好 的 解决 方法 。 


17.5.2 ”衰减 使 用 


在 电信 行业 中 ， 流 失 的 重要 预报 器 是 衰减 使 用 (decjining usage) ， 即 随 着 时 间 的 过 去 ， 
使 用 服务 越 来 越 少 的 客户 比 起 其 他 客户 更 有 可 能 离开 。 有 衰减 使 用 的 客户 可 能 有 许多 变量 指 
示 这 一 点 : 

。 账 单 度量 ， 例 如 最 近 的 花费 数量 相当 小 。 

。 使 用 量度 量 ， 例 如 最 近 的 使 用 量 相当 小 ， 或 者 每 月 总 是 最 小 量 。 

。 最 近 没 有 使 用 可 选 服务 。 

。 最 近 度 量 和 旧 的 度量 的 比率 小 于 1， 并 且 时 常 远 远 小 于 1， 表示 最 近 使 用 比 历史 使 

用 小 。 

对 同样 的 潜在 行为 存在 众多 不 同 的 度量 ， 上 暗示 了 一 种 情形 ， 即 衍生 变量 以 单个 变量 的 形 

式 可 能 有 益 捕 捉 行为 。 目 标 是 尽 可 能 将 很 多 信息 纳入 “衰减 使 用 ”的 指示 器 。 
“ 提示 : 当 许 多 不 同 的 变量 都 指示 单一 的 客户 行为 时 ， 合 并 这 类 信息 的 衍生 变量 可 能 

对 数据 挖 气 更 有 益 。 

幸运 的 是 ， 数 学 提供 了 优美 的 解决 办 法 ， 它 采用 最 佳 拟 合 线 的 形式 ， 如 图 17-1s 所 示 。 
拟 合 的 好 坏 程 度 用 R2 统计 量 描述 ， 变 化 范围 从 0 到 1， 数值 靠近 0 代表 差 的 拟 合 ， 靠 近 1 
代表 好 的 拟 合 。 线 的 倾斜 度 说 明 ， 某 一 变量 随时 间 的 平均 增加 率 或 减少 率 。 在 统计 学 上 ， 该 
倾斜 度 称 为 Beta 函数 ， 并 且 按 照 下 列 公式 进行 计算 


Sum of (x-average (x)) * (Yaverage (Y)) /sum ( (xaverage (x))?) 


56 
四 本 


图 17-15 ”最 佳 拟 合 线段 的 斜率 提供 一 个 很 好 的 按时 间 变 化 的 度量 
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为 给 出 如 何 使 用 这 个 公式 的 例子 ， 考 虑 图 17-15 所 对 应 的 下 列 客户 数据 。 表 17-4 中 的 
数据 是 对 一 个 典型 客户 的 计算 。 
表 17-4 ”计算 时 间 序 列 斜率 的 例子 
(X-AVG (X)) 


月 (X 值 ) X-AVG (X) (X-AVG (X))2 YY (来 自 客户 A) “ Y-AVG (Y) (YAVG (TD) 
1 -5.5 30.25 53.47 3.19 一 17.56 
一 4.5 20.25 46.61 -3.67 16.52 
3 -3.5 12.25 47.18 -3.10 10.84 
4 -2.5 6.25 49.54 -0.74 1.85 
5 -1.5 2.25 48.71 -1.S7 2.35 
6 -0.5 0.25 52.04 1.76 -0.88 
7 0.5 0.25 48.45 一 1.83 -0.91 
8 1.5 2.25 54.16 3.88 5.83 
9 2.5 6.25 54.47 4.19 10.47 
10 3.5 12.25 53.69 3.42 11.95 
11 4.5 20.25 45.93 一 4.35 一 19.59 
12 5.5 30.25 49.10 一 1.18 一 6.51 

总 计 143 14.36 

斜率 0.1004 


该 例 展 示 了 计算 斜率 的 一 个 典型 应 用 ， 即 发 现 上 一 年 的 使 用 情况 或 者 账单 模式 的 上 升 情 
况 。 表 格式 用 最 适合 电子 数据 表 的 格式 显示 计算 情况 。 然 而 ， 许 多 数据 挖掘 工具 提供 一 个 函 
数 ， 直 接 从 一 行 中 的 一 组 变量 计算 Beta 数值 。 当 这 种 函数 不 可 用 的 时 候 ， 可 以 使 用 更 基本 
的 算术 函数 来 表达 。 

虽然 对 于 这 种 计算 ， 每 月 数据 时 常 是 最 方便 的 ， 但 是 要 记 住 不 同 的 月 份 天 数 不 同 。 这 个 
问题 对 于 有 强烈 的 周 周 期 特性 的 商业 特别 重要 。 举 例 来 说 ， 有 些 月 份 有 5 个 完整 的 周末 ， 而 
其 他 的 只 有 4 个。 不 同 的 月 份 有 20 一 23 天 的 工作 日 〈 不 包括 节假日 )。 这 些 差 异 占 月 份 之 间 
差异 的 25% 。 当 处 理 有 这 类 周期 的 数据 时 ， 一 个 好 主意 是 计算 “每 周末 的 平均 值 ”或 “每 
个 工作 日 的 平均 值 ”， 以 便 考 察 所 选 度量 如 何 随时 间 变 化 。 

提示 : 当 利 用 有 周 周期 ， 但 必须 按 月 报告 的 数据 时 ， 可 以 考虑 诸如 “周末 每 天 的 平 

均值 ”或 “工作 日 每 天 的 平均 值 ”之 类 的 变量 ， 这 样 月 份 之 间 的 比较 就 更 有 意义 。 


17.5.3 旋转 者 、 交 易 商 和 便利 用 户 : 定义 客户 行为 


时 常 ， 经 商 者 能 够 基于 客户 随时 间 变化 的 行为 刻画 不 同 的 客户 群体 。 然 而 ， 将 非 正式 的 
交易 描述 翻译 成 对 数据 挖 气 有 用 的 形式 具有 挑战 性 。 面 对 这 种 挑战 ， 最 好 的 对 策 是 确定 与 商 
业 理 解 相 匹配 的 客户 行为 度量 。 

本 例 是 关于 在 主要 零售 银行 的 信用 卡 群 体 ， 已 经 发 现 可 居 利 客户 有 三 种 风格 : 

。 旋转 者 是 在 信用 卡 上 维持 大 宗 收 支 差 额 的 客户 。 因 为 他 们 每 个 月 为 巨大 的 收 支 差 额 支 

付 利息 ， 所 以 是 高 利润 客户 。 
"交易 商 征 每 个 月 有 大 宗 收 支 差 额 ， 但 会 全 部 付 清 的 客户 。 这 些 客户 不 支付 利息 ， 但 是 
对 每 笔 交 易 收取 的 交易 费 是 重要 的 税收 来 源 。 交 易 费 的 一 个 组 成 部 分 以 交易 量 的 百 分 


ps ee ma 


为 东 握 次 每 费 握 
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比 为 基础 。 
。 便 利用 户 是 定期 借用 大 量 费用 的 客户 ， 例 如 ， 为 了 度假 或 大 宗 购买 ， 然 后 在 几 个 月 内 
付 清 。 虽 然 不 像 旋转 者 那样 一 利 丰厚 ， 但 他 们 的 风险 较 低 ， 同 时 要 支付 大 量 的 利息 。 
市 场 营 销 组 相信 ， 这 三 类 客户 受 不 同 需 求 所 驱使 。 因 此 ， 了 解 未 来 客户 行为 ， 就 可 能 允 
许 未 来 的 营销 活动 将 最 适当 的 信息 发 送 给 每 个 客户 片 侦 。 和 群体 要 预测 未 来 6 个 月 的 客户 
行为 。 
本 例 的 关键 部 分 不 是 预测 ， 而 是 片段 的 定义 。 训 练 集 需要 把 客户 已 经 分 为 三 个 组 的 例 


子 。 获 得 这 个 分 类 (〈classification) 被 证 明 是 一 个 挑战 。 
1. 数据 


这 个 工程 可 用 的 数据 由 18 个 月 的 账单 数据 组 成 ， 包 括 : 
* 信用 额度 


。 利 率 
。 每 个 月 新 收取 的 费用 


。 最 小 支付 量 
“已 付 的 数量 


。 每 个 月 的 总 余 款 
。 每 个 月 已 付 的 利息 和 相关 的 费用 


这 是 信用 卡 的 典型 规则 。 当 客户 已 经 还 清 余 款 的 时 候 ， 对 新 的 收费 无 需 支付 利息 (1 个 
月 的 时 间 )。 然 而 ， 当 有 很 大 的 余额 时 ， 对 余额 和 新 的 收费 都 要 支付 利息 。 这 笔 数据 对 了 解 
客户 有 什么 启发 ? 


2. 根据 估计 收益 进行 分 段 


佑 计 收 益 是 理解 客户 价值 的 好 方法 (本 质 上 ， 该 数值 对 客户 行为 不 提供 很 多 的 深入 了 
解 ， 因 此 对 于 宣传 并 不 是 很 有 用 )。 单 独 以 客户 价值 和 其 收入 为 基础 ， 假 设 所 有 客户 的 花费 
是 相同 的 。 尽 管 这 不 是 事实 ， 却 是 一 个 有 用 的 近似 值 ， 因 为 一 个 完美 的 收益 模型 是 相当 复杂 


的 ， 而 且 很 难 开 发 ， 已 经 超出 本 例 的 范围 。 


表 17-5 给 出 了 6 位 客户 1 个 月 的 账单 。 最 后 一 列 是 估计 收益 ， 有 两 个 组 成 部 分 。 第 一 


个 是 支付 的 利息 量 ， 第 二 个 是 新 交易 的 交易 费用 ， 在 本 例 中 这 个 估计 值 是 新 交易 量 的 1% 。 
表 17-5 ”六 位 信用 卡 客户 及 其 一 个 月 的 数据 


信用 额度 ”利率 新 的 收费 ”初始 余额 ”最 小 支付 付款 量 ”利息 交易 收入 ”估计 收益 
顾客 1 $500 14.9% $S0 $400 $15 $15 $4.97 $0.50 $5.47 
顾客 2 $5 000 4.99% $0 叫 4 500 $135 吊 135 $18.38 $0.00 书 18.38 
顾客 3 $6 000 11.9% $100 $3 300 $99 ”$1000 $32.73 $1.00 $33.73 
顾客 4 $10 000 14.9% 。” $2 500 $0 $0 $75 $0.00 。” $$25.00 $25.00 
顾客 5 $8 000 12.9% 。 $6 500 $0 $0 。$6 500 $0.00 ”$65.00 $65 .00 
顾客 6 $5 000 17.9% $0 $4 500 $135 $135 。 $67.13 $0.00 $67.13 


估计 收益 是 用 单个 数值 比较 不 同 客户 的 好 方法 。 这 个 表格 清楚 地 说 明 ， 很 少 使 用 信用 卡 
(客户 1) 的 人 ， 佑 计 收 益 也 很 少 。 另 一 方面 ， 缴 纳 很 多 收费 或 支付 利息 的 人 产生 较 大 的 


收益 。 
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然而 ， 估 计 收 益 不 能 区 分 不 同类 型 的 客户 。 事 实 上 ， 交 易 商 (客户 S) 有 非常 高 的 收 
益 ， 没 有 新 费用 (客户 6) 的 旋转 者 也 是 如 此 。 该 例 显 示 估 计 收 益 与 客户 行为 的 关系 很 小 。 
频繁 使 用 信用 卡 的 用 户 和 很 少 使 用 的 用 户 都 产生 很 多 收益 。 这 是 我 们 所 期 望 的 ， 因 为 有 不 同 
类 型 的 便利 客户 。 

真实 世界 比 这 个 简单 例子 更 复杂 。 每 位 客户 都 有 破产 的 风险 ; 那样 ， 很 突出 的 余额 一 定 
被 匀 销 。 不 同类 型 的 卡 有 不 同 的 规则 。 举 例 来 说 ， 许 多 合作 的 卡 要 给 合作 机 构 支 付 交易 费 。 
并 且 ， 服 务 不 同 的 客户 花费 也 不 同 ， 取 决 于 客户 是 否 使 用 客户 服务 、 投 诉 收费 、 在 线 支付 ， 
等 等 。 

简 而 言 之 ， 估 计 收 益 是 了 解 哪些 客户 有 价值 的 好 方式 。 但 是 ， 对 客户 行为 不 提供 更 多 深 
人 了 解 。 

3. 根据 潜能 分 片 

除了 实际 收益 之 外 ， 每 位 客户 都 有 湾 在 收益 (potential revenue)。 这 是 客户 每 个 月 可 能 
会 产生 的 最 大 收益 量 。 最 大 收益 容易 计算 。 简 单 假设 整个 信用 卡 用 于 新 的 收费 〈 因 此 产生 交 
易 税 ) 或 者 结 转 (利息 税收 )。 这 些 中 较 大 的 就 是 潜在 收益 。 

表 17-6 比较 了 在 一 个 月 期 间 ， 同 样 6 位 客户 的 潜在 收益 和 实际 收益 。 这 张 表格 展示 了 
一 些 有 用 的 特征 。 某 些 不 和合 利 的 客户 已 经 达到 潜能 的 饱和 状态 。 不 增加 信用 限度 或 利率 ， 是 
不 可 能 增加 他 们 的 价值 的 。 


表 17-6 ”六 位 信用 卡 客户 的 潜力 


信用 额度 利率 利息 交易 潜在 收益 实际 收益 潜力 
顾客 1 $500 14.9% $6.21 $5.00 $6.21 $5.47 88% 
顾客 2 $5 000 4.99% $20.42 $50.00 $50.00 $18.38 37% 
顾客 3 $6 000 11.99% 蔬 59 .S0 $60.00 $60.00 $33.73 56% 
顾客 4 $10 000 14.9% $124.17 $100.00 $124.17 $25.00 20% 
顾客 5 $8 000 12.9% $86 .00 $80.00 $86.00 $65.00 76% 
顾客 6 $5 000 17.9% $74.58 $50.00 $74.58 $67.13 90% 


比较 实际 收益 和 光 在 收益 有 另 一 个 方面 的 问题 : 使 数据 归 一 化 。 没 有 归 一 化 ， 较 富有 的 
客户 似乎 有 最 大 的 潜能 ， 尽 管 这 个 潜能 没有 被 完全 利用 。 因 此 ， 具 有 $10 000 信用 额度 的 客 
户 远 远 不 能 达到 他 或 她 的 潜能 。 事 实 上 ,客户 1 有 最 小 的 信用 额度 ， 最 可 能 达到 他 或 她 的 潜 
在 价值 。 这 种 价值 定义 排除 富有 因素 ， 可 能 未 必 适 合 特定 的 目的 。 

4. 与 理想 情况 比较 ， 获 知客 户 行为 

因为 估计 收益 和 潜能 不 能 区 分 客户 行为 的 类 型 ， 让 我 们 回 过 头 来 更 详细 地 看 看 定义 。 首 
先 ， 在 数据 内 部 ， 是 什么 说 明 谁 是 旋转 者 ? 下 面 是 一 些 旋转 者 的 定义 : 

“每 个 月 支付 利息 的 人 

“每 个 月 支付 超过 特定 量 利息 的 人 〈 和 莒 如 说 ， 超 过 $10) 

。 几乎 每 个 月 支付 超过 特定 量 利 息 的 人 “譬如 说 ,在 80% 的 月 份 中 超过 $10) 

所 有 这 些 都 有 一 个 特别 的 性 质 〈 并 且 营 销 群 体 在 历史 上 已 经 给 出 类 似 的 定义 )。 那 些 支 
付 很 少 利息 ， 但 是 每 个 月 都 支付 利息 的 人 怎么 样 呢 ? 为 什么 是 $10? 为 什么 是 80% 的 月 份 ? 
这 些 定义 都 是 任意 的 ， 通 常 是 一 个 人 在 特定 时 间 对 定义 的 最 好 推测 的 结果 。 
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从 客户 角度 看 ， 旋 转 者 是 什么 ? 是 每 个 月 只 有 最 小 付款 量 的 人 。 到 现在 为 止 ， 一 直 都 还 
不 错 。 对 于 比较 客户 ， 这 个 定义 有 点 不 准确 ， 因 为 最 小 付款 按 月 份 和 客户 的 变化 而 改变 。 

图 17-16 显示 三 位 客户 发 生 的 实际 付款 和 最 小 付款 ， 他 们 的 信用 额度 全 都 是 $2 000。 
旋转 者 每 个 月 的 付款 非常 接近 最 小 付款 。 交 易 商 付款 比较 接近 信用 额度 ， 但 是 这 些 每 月 费用 
变化 幅度 非常 大 ， 这 取决 于 每 个 月 发 生 的 缴费 量 。 便 利用 户 差不多 是 在 二 者 之 间 。 从 性 质 上 
看 ， 曲 线 的 形状 对 客户 的 行为 提供 了 深入 了 解 。 


典型 的 旋转 者 每 个 月 只 按照 
或 接近 最 小 余额 支付 


这 个 旋转 者 已 维持 $1070 的 
平均 余 款 ， 产 生 的 新 费用 
大 约 是 $200 


典型 的 交易 商 每 个 月 还 清 账 单 。 

比较 典型 的 是 ， 除 有 少数 费用 

的 月 份 之 外 ， 付 款 比 最 小 付款 
了 许多 


这 个 交易 商 有 $1196 的 平均 
余 款 


典型 的 便利 用 户 当 需 要 的 
时 候 使 用 信用 卡 ， 并 且 在 
几 个 月 之 内 还 清 剩 余 款 项 


这 个 便利 用 户 有 $524 的 平 
均 余 款 


图 17-16 这 三 个 图 展示 了 拥有 $2000 信用 额 的 三 位 信用 卡 客户 实际 的 和 最 小 付款 


当 分 类 数 百 万 客户 行为 时 ， 手 工 描绘 曲线 是 效率 很 差 的 一 种 方法 。 曲 线 是 一 种 含糊 的 定 
性 概念 ， 真 正 需 要 的 是 一 个 得 分 。 产 生得 分 的 方法 是 考察 “最 小 付款 ”曲线 和 实际 “付款 ” 
曲线 之 间 的 区 域 。 就 我 们 的 目的 来 说 ， 该 区 域 是 付款 和 最 小 量 之 间 差 异 的 总 和 。 对 于 旋转 者 
来 说 ， 这 个 总 数 是 $112; 对 于 便利 用 户 来 说 ， 是 $559.10; 对 于 交易 商 ， 却 是 巨大 的 
$13 178.90。 
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这 个 得 分 有 直观 的 意义 。 得 分 越 低 ， 该 客户 看 起 来 越 像 旋转 者 。 然 而 ， 得 分 不 能 比较 两 
个 拥有 不 同 信用 额度 的 持 卡 人 。 考 虑 一 种 极端 的 情况 。 如 果 持 卡 人 有 $$100 的 信用 额度 ， 并 
且 是 一 个 理想 的 交易 商 ， 那 么 ， 得 分 不 会 超过 $1200。 而 拥有 信用 额度 为 $2000 的 非 理 想 
旋转 者 仍然 有 非常 大 的 得 分 。 

解决 的 办 法 是 ， 将 每 个 月 的 差额 除 以 总 的 信用 上 额度， 使 数值 归 一 化 。 现 在 ， 三 者 的 得 分 
分 别 是 0.0047、0.023 和 0.5$。 当 归 一 化 的 得 分 接近 0 的 时 候 ， 持 卡 人 接近 理想 旋转 者 。 
当 得 分 接近 1 的 时 候 ， 持 卡 人 接近 理想 的 交易 商 。 在 二 者 之 间 的 数字 代表 便利 用 户 。 这 为 每 
位 客户 提供 了 旋转 者 - 交易 商 得 分 ， 便 利用 户 位 于 中 间 。 

客户 行为 的 这 个 得 分 有 一 些 有 用 的 性 质 。 从 来 不 使 用 信用 卡 的 人 会 有 最 小 付款 量 0， 实 
际 付款 量 也 是 0。 这 些 人 看 起 来 像 是 旋转 者 。 那 可 能 不 是 件 好 事 。 解 决 这 个 问题 的 一 种 方法 
是 包括 带 有 行为 得 分 的 估计 收益 潜能 ， 实 际 上 ， 使 用 两 个 数字 描述 行为 。 

这 个 得 分 的 另 一 个 问题 是 ， 随 着 信用 额度 的 增加 ， 客 户 越 来 越 显 得 像 旋转 者 ， 除 非 客户 
缴费 更 多 。 为 了 避免 这 个 问题 ， 比 率 可 以 改 为 每 月 余 款 除 以 信用 额度 。 当 无 亏欠 和 无 支付 的 
时 候 ， 所 有 的 数值 都 是 0。 

图 17-17 显示 了 这 个 问题 的 一 种 变形 。 得 分 使 用 支付 量 对 最 小 付款 量 的 比率 。 它 有 一 些 
很 好 的 特征 。 理 想 旋 转 者 的 得 分 是 1， 因 为 他 们 的 支付 和 最 小 付款 量 相等 。 不 使 用 信用 卡 的 
人 得 分 为 0。 交易 商 和 便利 用 户 两 者 的 得 分 都 超过 1， 但 是 很 难 区 分 他 们 。 


付款 是 最 小 支付 的 倍数 


] 月 2 朋 3 肖 4 月 5 月 衣 和 月 明 9% 朋 10 月 H 月 12 月 


图 17-17 比较 支付 量 与 最 小 付款 的 倍数 显示 ， 对 于 交易 商 、 旋 转 者 和 便利 用 户 有 截然 不 同 的 曲线 


这 一 他 已 经 展示 了 测量 客户 行为 的 几 种 不 同 的 方法 。 所 有 这 些 方法 都 是 基于 与 客户 相关 
的 重要 变量 和 基于 几 个 月 的 度量 。 不 同 的 测量 对 识别 行为 的 不 同方 面 更 有 价值 。 

5. 理想 的 便利 用 户 

前 一 他 的 度量 重点 关注 客户 行为 的 极端 情况 ， 如 有 代表 性 的 旋转 者 和 交易 商 。 便 利用 户 
仅仅 被 假定 差不多 在 中 间 的 某 个 位 置 。 是 否 有 方法 开发 一 个 最 适用 于 理想 便利 用 户 的 得 分 ? 

首先 ， 证 我 们 定义 理想 的 便利 用 户 。 某 人 一 年 两 次 使 用 信用 卡 达 到 信用 额度 ， 然 后 在 4 
个 月 期 间 还 清 透 支 款 。 在 那 年 其 余 的 10 个 月 期 间 ， 即 使 有 ， 也 是 很 少 的 额外 费用 。 表 17-7 
显示 了 两 个 便利 用 户 每 月 的 余 款 与 信用 额度 的 比率 。 
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表 17-7 ”按照 信用 额度 百分比 表示 两 个 便利 用 户 的 月 度 余额 

] 月 2 月 3 月 4 月 全 月 6 月 7 月 8 月 9 月 11 月 12 月 

Convl 80% 60% 40% 20% 0% 0% 0% 60% 30% 15% 70% 


Conv2 09% 09% 83% 50% 17% 0% 67% 30% 17% 0% 0% 


这 张 表 格 也 阐明 在 便利 用 户 定义 中 的 主要 挑战 之 一 。 描 述 他 们 行为 的 数值 在 任何 给 定 的 
月 份 中 彼此 没有 关系 。 这 是 不 协调 的 。 事 实 上， 一 方面 便利 用 户 之 间 有 基本 的 差异 ， 交 易 商 
和 旋转 者 是 另 一 方面 。 知 道 某 个 人 是 交易 商 ， 可 以 准确 地 描述 他 们 在 任何 给 定 月 份 的 行为 ， 
即 他们 会 还 清 剩 下 的 余额 。 知 道 某 个 人 是 便利 用 户 没 有 多 大 的 帮助 ， 在 任何 给 定 的 月 份 中 ， 
他 们 可 能 没有 任何 支付 ， 或 还 清 所 有 债务 或 部 分 还 款 。 

这 意味 着 不 可 能 开发 度量 以 识别 便利 用 户 吗 ? 一 点 也 不 。 解 决 的 方法 是 ， 按 照 余额 比率 
将 12 个 月 的 数据 进行 排序 ， 使 用 排序 数据 创建 便利 用 户 的 度量 。 

图 17-18 举例 说 明 这 一 过 程 。 它 展示 了 两 个 便利 用 户 和 理想 便利 用 户 的 线 轮 廊 。 这 里 ， 
数据 已 经 排序 ， 最 大 的 数值 首先 出 现 。 对 于 第 一 个 便利 用 户 ，1 个 月 指 的 是 一 月 。 对 于 第 二 
个 ， 它 指 的 是 三 月 。 


| 一 和 一 理想 便利 用 户 
一 一介 便利 用 户 2 


癌 用 人 额度 的 比例 


余额 对 信 


月 (从 最 高 到 最 低 余额 排序 ) 
图 17-18 通过 对 月 份 余额 比率 排序 ， 比 较 两 个 便利 用 户 与 理想 便利 用 户 

现在 ， 使 用 同样 的 观念 ， 取 理想 线条 和 实际 线条 之 间 的 区 域 产 生得 分 ， 测 量 便利 用 户 接 
近 理想 状态 的 程度 。 值 得 注意 的 是 ， 对 所 有 月 份 旋转 者 在 最 大 值 附近 会 有 很 突出 的 余额 。 他 
们 会 有 很 高 的 得 分 ， 表 明 他 们 离 理想 便利 用 户 很 远 。 对 于 便利 用 户 ， 得 分 很 小 。 

这 一 案例 研究 已 经 显示 划分 客户 的 几 种 不 同方 式 ， 都 是 利用 衔 生 变量 描述 客户 行为 。 通 
常 ， 描 述 特定 行为 ， 然 后 创建 一 个 得 分 以 测量 客户 行为 与 理想 情况 相差 多 远 ， 这 种 做 法 是 可 
行 的 。 

17.6 数据 的 黑暗 面 


处 理 数据 是 数据 挖掘 过程 的 关键 部 分 。 数 据 意 味 着 什么 ” 有 许多 方法 来 回答 这 个 问 
题 一 一 通过 书面 文件 ， 在 数据 库 模 式 中 ,在 文件 布局 中 ， 通 过 元 数据 系统 ， 而 且 相 当 重 要 的 
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一 种 途径 是 ， 通 过 了 解 实际 发 生 事情 的 数据 库 系统 管理 员 和 系统 分 析 员 。 无 论文 档 编制 如 何 
好 ， 真 正 的 内 情 在 数据 之 中 。 

有 一 种 误解 认为 数据 挖掘 需要 完美 数据 。 在 商业 分 析 界 ， 完 美 绝对 是 足够 好 的 敌人 。 原 
因 之 一 是 ， 探 索 数据 和 构建 模型 能 够 突出 用 其 他 方式 不 知道 的 数据 问题 。 利 用 可 用 数据 开始 
控 气 过程， 未必 产生 最 好 的 模型 ， 但 是 它 确实 启动 了 一 个 能 随时 间 逐 渐 完 善 的 过 程 。 原 因 之 
二 是 ， 等 待 完美 数据 时 常会 延误 工程 ， 从 而 无 法 完成 任何 任务 。 

本 节 介 绍 了 一 些 重要 的 问题 ， 这 些 问 题 使 处 理 数据 成 为 一 个 痛苦 的 过 程 。 


17.6.1 缺失 值 


缺失 值 指 的 是 应 该 有 但 却 没 有 的 数据 。 在 许多 情况 下 ， 缺 失 值 在 数据 源 中 用 NULL 来 
表示 ， 很 容易 识别 。 然 而 ， 要 小 心 的 是 : NULL 有 时 是 可 接受 的 数值 。 在 这 种 情况 下 ， 我 
们 说 数值 为 空 而 不 是 缺失 ， 尽 管 在 源 数 据 中 两 者 看 起 来 相同 。 举 例 来 说 ， 账 户 的 停止 代码 可 
能 是 NULL， 表 明 账 户 仍 然 是 活跃 的 。 这 个 信息 表明 数据 是 否 被 审查 过 ， 它 对 生存 分 析 至 关 
重要 。 

有 时 NULL 是 可 接受 的 数值 ， 此 时 利用 重 琶 数据 描述 客户 和 潜在 客户 的 人 口 统计 学 特 
征 和 其 他 特征 。 在 这 种 情况 下 ，NULL 时 常 有 下 列 两 种 意思 之 一 : 

。 没 有 充足 的 证 据 表 明 该 字段 对 个 体 是 否 为 真 。 举 例 来 说 ， 没 有 订阅 高 尔 夫 球 杂 志 意 味 

着 此 人 不 是 打 高 尔 夫 球 的 人 ， 但 是 不 能 证 明 它 。 

。 在 重 释 数 据 中 ， 此 人 没有 与 之 相 匹配 的 记录 。 

提示 : 当 处 理 重 登 数 据 时 ， 用 另外 的 数值 代替 NULL 是 有 用 的 ， 一 个 代表 记录 不 

正 配 ， 另 一 个 代表 数值 是 未 知 的 。 

区 分 这 些 情 形 是 有 用 的 。 一 种 方法 是 分 开 记 录 不 匹配 的 数据 ， 创 建 两 个 不 同 的 模型 集 。 
另 一 种 方法 是 用 另外 的 数值 代替 NULL， 指 出 匹配 失败 是 在 记录 层次 还 是 在 字段 层次 。 

因为 客户 特征 标识 使 用 如 此 多 的 聚集 数据 ， 对 于 各 种 不 同 的 特征 时 常 包含 “0”。 因 此 ， 
对 于 算法 来 说 ， 在 客户 特征 标识 中 缺失 数据 (missing data) 不 是 最 重要 的 问题 。 然 而 ， 这 
可 能 大 离谱。 考虑 有 12 个 月 账单 数据 的 客户 特征 标识 。 在 过 去 12 个 月 中 开始 的 客户 已 经 失 
去 较 早 几 个 月 的 数据 。 在 这 种 情况 下 ， 用 某 个 任意 值 代替 缺失 数据 不 是 一 个 好 主意 。 最 好 的 
办 法 是 把 模型 集 拆 分 为 两 部 分 ， 即 一 个 模型 集 包 含有 12 个 月 保有 期 的 客户 ， 另 一 个 包含 最 
近 的 客户 。 

当 缺 失 数据 是 问题 的 时 候 ， 重 要 的 是 找 出 原因 。 举 例 来 说 ， 我 们 曾经 遇 到 一 个 数据 库 缺 
失 客户 开始 日 期 的 数据 。 经 过 进一步 的 调查 ， 发 现 这 是 那些 在 1999 年 3 月 之 前 开始 并 结束 
关系 的 所 有 客户 。 这 个 数据 来 源 后 来 关注 这 个 日 期 之 后 开始 的 客户 ， 或 者 在 此 日 期 仍 是 活 牙 
的 客户 。 在 另 一 种 情形 中 ， 交 易 表格 丢失 了 某 个 日 期 之 前 的 特定 交易 类 型 。 在 创建 数据 仓库 
期 间 ， 不 同 交易 在 不 同时 间 完 成 。 只 有 每 次 都 小 心地 观察 交叉 表 中 的 交易 类 型 ， 才 会 弄 清楚 
某 一 种 类 型 比 其 余 类 型 更 晚 完成 。 

在 另 一 种 情形 中 ， 数 据 仓 库 中 的 缺失 数据 就 那样 缺失 了 ， 因 为 数据 仓库 不 能 适当 地 载 人 
亡 。 当 原因 清楚 的 时 候 ， 应 该 修复 数据 库 ， 因 为 误导 数据 比 没有 任何 数据 更 粳 。 

处 理 缺 失 数据 的 一 种 方法 是 试 着 填写 数值 ， 例 如 利用 平均 数值 或 最 常见 的 数值 。 任 何 一 
个 替换 值 会 改变 变量 的 分 布 ， 并 且 可 能 导致 产生 拙劣 的 模型 。 这 个 方法 的 一 种 比较 聪明 的 变 
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体 是 ， 使 用 像 回 归 或 神经 网 络 之 类 的 技术 ， 试 着 计算 基于 其 他 字段 的 数值 。 除 非 绝对 需要 ， 
否则 我 们 不 赞成 这 种 方法 ， 因 为 字段 不 再 意味 着 它 应 该 意味 的 事情 。 

警告 : 处 理 缺 失 数值 最 糟糕 的 方法 之 一 是 用 某 些 “特别 的 ”数值 替换 它们 ， 例 如 

9999 或 -1， 由 于 它 的 不 含 理性 ， 会 很 醒目 。 数 据 挖 握 算 法 将 会 恰当 地 使 用 这 些 好 

像 为 真 的 数值 ， 导 致 不 正确 的 结果 。 

通常 ， 数 据 缺 失 是 由 于 系统 原因 ， 就 像 在 前 面 提 及 的 新 客户 情形 。 较 好 的 方法 是 将 模型 
集 分 拆 为 几 个 部 分 ， 从 一 个 数据 集中 消去 缺失 字段 。 虽 然 一 个 数据 集 有 多 个 字段 ， 但 都 不 再 
有 缺失 值 。 

了 解数 据 在 未 来 是 否 缺 失 也 很 重要 。 有 时 ， 正 确 的 方法 是 在 有 完整 数据 的 记录 (和 希望 这 
些 记 录 完 全 代表 所 有 的 记录 ) 上 建立 模型 ， 并 且 让 人 修复 数据 源 ， 消 除 未 来 隐患 。 


17.6.2 胜 数据 


脏 数据 指 的 是 包含 可 能 看 起 来 正确 但 实际 不 正确 的 数值 的 字段 。 通 常 可 以 标识 这 些 数 
据 ， 因 为 这 类 数值 是 离 群 值 。 例 如 ， 从 前 一 家 公司 认为 ， 呼 叫 中 心 的 接线 员 收集 客户 的 出 生 
日 期 是 非常 重要 的 ， 所 以 他 们 将 茨 屏 上 的 相应 输入 栏 设 为 强制 性 的 。 当 他 们 观察 数据 的 时 
候 ， 惊 讶 地 发 现 超过 S% 的 客户 生 于 1911 年 ， 并 且 不 仅仅 在 1911 年 ， 而 且 在 11 月 11 日 。 
事实 上 ， 不 是 所 有 客户 都 在 这 一 日 期 出 生 ， 呼 叫 中 心 的 接线 员 很 快 获知 打 6 个 “1” 是 填充 
该 字段 (日 、 月 和 年 ， 每 个 填 两 个 字符 ) 的 最 快 方法 。 结 果 是 : 许多 客户 拥有 恰好 相同 的 
生日 。 

收集 精确 数据 的 企图 时 常 与 管理 企业 的 工作 相 冲 突 。 许 多 商店 对 有 会 员 卡 的 客户 打折 。 
当 客户 没有 会 员 卡 的 时 候 ， 会 发 生 什么 呢 ? 商业 规则 或 许 说 “没有 折扣 ”。 可 能 真正 发 生 的 
是 ， 商 店 职员 可 以 融 人 软 认 数字 ， 所 以 客户 仍然 能 取得 资格 。 这 种 友好 的 举止 导致 某 个 会 员 
号 码 似乎 有 格外 高 的 交易 量 。 

一 家 公司 发 现 几 位 客户 在 新 泽 西 州 伊丽莎白 市 ， 其 邮政 编码 为 07209。 不 幸 的 是 ， 当 按 
照 邮 政 编码 和 附加 邮政 编码 信息 分 析 数 据 的 时 候 ， 发 现 这 个 邮政 编码 根本 不 存在 。 因 为 邮局 
时 常 能 解决 发 送 写 错 地 址 的 邮件 ， 所 以 早期 没有 发 现 这 个 错误 。 此 类 错误 能 通过 使 用 软件 或 
外 部 服务 局 标准 化 地 址 数据 来 修复 。 

实际 上 ， 看 起 来 像 脏 数 据 的 数据 可 能 实际 上 提供 了 对 商业 的 深入 了 解 。 例 如 ， 电 话 号 码 
应 该 只 能 由 数字 组 成 。 一 家 地 方 电话 公司 的 账单 系统 把 数字 存储 成 字符 串 〈 实 际 上 ， 这 是 相 
当 普 遍 的 )。 令 人 惊讶 的 是 ， 有 几 百 个 “电话 号码 ”包括 了 字母 字符 。 在 被 问 及 此 事 之 后 几 
个 星期 (1) ， 系 统 组 确定 ， 本 质 上 这 些 是 电话 卡号 码 ， 不 能 附 到 电话 线路 ， 只 能 为 第 三 方 账 
单 服 务 使 用 。 

另外 一 家 公司 使 用 媒体 代码 决定 如 何 获得 客户 。 因 此 ， 以 “WwW ”开始 的 媒体 代码 表示 客 
户 来 自 网 络 ,“D” 表 示 对 直接 邮寄 的 响应 等 。 在 代码 中 ， 另 外 的 字符 用 来 区 分 特别 的 标语 
广告 和 特别 的 电子 邮件 活动 。 当 观察 数据 的 时 候 ， 人 们 惊讶 地 发 现 网 络 客户 都 开始 于 80 年 
代 。 不 ， 这 些 不 是 早期 客户 。 事 实 上 媒体 代码 的 编码 方案 在 1997 年 10 月 创建 。 较 早 的 代码 
本 质 上 是 乱 语 。 解 决 方法 是 创建 新 的 渠道 用 于 分 析 ， 即 “1998 年 之 前 ”的 渠道 。 

芍 告 : 大 多 数 有 害 的 数据 问题 是 你 不 知道 的 。 由 于 这 个 原因 ， 数 据 挖 握 不 能 在 真空 

中 进行 ; 来 自 商业 人 士 和 数据 分 析 师 的 输入 对 于 成 功 是 至 关 重 要 的 。 
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所 有 的 这 些 案 例 情 形 是 能 识别 脏 数据 的 例子 。 然 而 ， 数 据 挖掘 的 最 大 问题 是 那些 未 知 的 
情况 。 有 时 ， 数 据 问题 隐藏 于 系统 干预 的 背后 。 特 别 是 ， 某 些 数据 仓库 建立 者 僧 恶 丢失 数 
据 ， 因 此 ， 在 清理 数据 时 ， 他 们 可 能 归于 一 些 数 值 。 举 例 来 说 ， 在 1998 年 ， 一 家 公司 有 一 
半 以 上 的 忠实 客户 注册 了 公司 的 忠诚 卡 计 划 。 计 划 大 概 已 经 执行 很 久 了 ， 但 是 数据 是 在 
1998 年 装 人 数据 仓库 中 。 猜 猜 发 生 了 什么 事 ” 对 于 首次 载 人 的 客户 ， 数 据 仓 库 建 立 者 只 是 
加 入 了 当前 的 日 期 ， 而 不 是 客户 实际 注册 的 日 期 。 

数据 挖掘 的 目的 是 找到 数据 中 的 模式 ， 最 好 是 令 人 感 兴 趣 的 、 可 操作 的 模式 。 最 明显 的 
模式 以 公司 如 何 运 转 为 基础 。 通 常情 况 下 ， 目 标 是 获得 对 客户 的 了 解 ， 而 不 是 对 商业 如 何 运 
行 的 了 解 。 为 了 做 到 这 一 点 ， 有 必要 了 解 创造 数据 的 时 候 正 在 发 生 的 事情 。 


17.6.3 不 一 致 数值 


从 前 ， 计 算 机 是 昂贵 的 ， 因 此 公司 没有 很 多 的 计算 机 。 那 个 时 代 已 过 去 很 久 ， 现 在 公司 
有 许多 系统 以 满足 不 同 的 需求 。 事 实 上 ， 大 多 数 公司 有 数 十 或 数 以 百 计 的 系统 ， 一 些 立足 于 
操作 层面 ， 一 些 立足 于 决策 支持 层面 。 在 这 样 的 一 个 世界 中 ， 不 可 避免 的 ， 不 同系 统 的 数据 
不 总 是 一 致 的 。 

系统 不 一 致 的 一 个 原因 是 ， 它 们 指 的 是 不 同 的 事情 。 考 虑 移动 电话 服务 的 开始 日 期 。 订 
单 - 登 陆 系 统 可 能 考虑 客户 签 购 服务 的 日 期 ， 操 作 系统 可 能 考虑 服务 生效 的 日 期 ， 账 单 系统 
可 能 考虑 第 一 份 账单 生效 的 日 期 。 下 游 的 决策 支持 系统 可 能 还 有 另 一 种 定义 。 所 有 这 些 日 期 
应 该 彼此 相 靠 近 。 然 而 ， 总 有 例外 。 最 佳 解决 办 法 是 包括 全 部 的 日 期 ， 因 为 它们 能 使 业务 更 
清楚 。 举 例 来 说 ， 在 客户 注册 服务 的 时 间 和 服务 实际 生效 的 时 间 之 间 ， 何 时 有 长 时 间 的 延 
迟 ? 这 与 流失 有 关 吗 ? 比较 普通 的 解决 办 法 是 选择 其 中 的 一 个 日 期 ， 并 称 之 为 开始 日 期 。 

另 一 个 原因 与 系统 开发 者 的 正确 意图 有 关 。 举 例 来 说 ， 决 策 支持 系统 可 能 保存 客户 的 当 
前 快照 ， 包 括 客 户 为 什么 停止 的 代码 。 一 个 代码 数值 可 能 表明 某 些 客户 因为 非 支 付 原因 而 停 
止 ; 而 某 些 代 码 数值 可 能 表示 其 他 理由 一 一 转向 竞争 对 手 、 不 喜欢 服务 ， 等 等 。 然 而 ， 对 已 
经 自动 停止 的 客户 不 支付 最 后 账单 并 不 罕见 。 在 这 个 数据 源 中 ， 实 际 的 停止 代码 被 简单 地 柳 
盖 。 客 户 停止 的 时 间 愈 长 ， 当 公司 确定 一 笔 余 款 应 该 被 归还 的 时 候 ， 初 始 停止 理由 随后 被 覆 
盖 的 机 会 越 大 。 这 里 的 问题 是 一 个 字段 被 用 于 两 件 不 同 的 事情 一 一 停止 理由 和 非 支 付 信息 。 
这 是 拙劣 的 数据 建 模 反 过 来 刺 痛 分 析 者 的 例子 。 

使 用 数据 仓库 带 来 的 一 个 问题 是 如 何 区 分 初始 载 人 和 后 来 逐渐 增加 的 数据 。 通 常 ， 初 始 
载 人 没有 丰富 的 信息 ， 因 此 按时 间 追 湖 回去 时 存在 空白 。 举 例 来 说 ， 初 始 日 期 可 能 是 正确 
的 ， 但 是 没有 任何 那个 日 期 的 产品 或 账单 计划 。 数 据 的 每 个 来 源 有 它 的 特质 ; 最 好 的 建议 是 
开始 了 解数 据 并 提 许 多 问题 。 


17.7 ”计算 问题 


创造 有 用 的 客户 特征 标识 需要 相当 可 观 的 计算 能 力 。 幸 运 的 是 ， 计 算 机 担当 此 任 。 较 重 
要 的 问题 是 使 用 哪 一 个 系统 。 有 几 种 进行 转换 工作 的 可 能 : 

“ 源 系统 ， 典 型 的 是 在 某 类 数据 库 中 (操作 性 或 者 决策 支持 类 型 ) 

“数据 提取 工具 〈 用 于 填充 数据 仓库 和 数据 集 市 ) 

。 专 用 代码 (例如 SAS、SPSS、S_Plus、Perl) 
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“数据 挖掘 工具 
其 中 每 一 个 都 有 自己 的 优 缺 点 。 


17.7.1 源 系 统 


源 系 统 通 常 是 关系 数据 库 或 大 型 机 系统 。 通 常 ， 这 些 系统 是 高 度 受 限 的 ， 因 为 它们 有 许 
多 用 户 。 这 种 源 系 统 不 是 完成 数据 转换 的 可 行 平台 。 相 反 地 ， 数 据 来 源 于 这 些 系 统 (通常 作 
为 平面 文件 )， 但 在 其 他 地 方 进行 处 理 。 

在 其 他 情况 下 ， 数 据 库 可 能 对 特别 的 查询 有 用 。 由 于 关系 数据 库 的 能 力 ， 这 种 查询 对 产 
生 客户 特征 标识 是 有 用 的 。 特 别 是 ， 数 据 库 可 能 : 

。 从 个 别 字 段 中 提取 特征 ， 即 使 这 些 字 段 是 日 期 型 和 字符 型 

。 使 用 算术 运算 合并 多 个 字段 

* 在 参照 表 中 查找 数值 

“汇总 交易 数据 

关系 数据 库 不 是 特别 擅长 转轴 字段 ， 尽 管 如 本 章 前 面 所 示 ， 它 可 用 于 这 个 目的 。 

就 缺点 而 言 ， 在 SQL 中 表示 转换 可 能 很 麻烦 ， 至 少 需要 具备 相当 的 SQL 专用 技术 。 查 
询 可 能 扩展 为 数 百 行 ， 包 含 子 查询 、 连 接 以 及 聚合 运算 。 这 种 查询 尤其 不 易 读 懂 ， 除 了 构造 
它们 的 人 。 这 些 查 询 也 是 杀手 查询 ， 尽 管 数据 库 正 逐渐 变 得 有 力 并 能 处 理 它 们 。 从 正面 看 ， 
数据 库 确 实 可 以 充分 利用 并 行 硬件 ， 是 转换 数据 很 有 利 的 条 件 。 


17.7.2 提取 工具 


提取 工具 (时 常 称 为 提取 - 转换 - 载 人 ETL 工具 ) 通常 用 于 装载 数据 仓库 和 数据 集 市 。 
在 多 数 公 司 中 ， 商 业 用 户 不 能 随时 访问 这 些 工 具 ， 并 且 它 们 的 大 部 分 功能 能 够 在 其 他 工具 中 
发 现 。 提 取 工 具 通 常 是 昂贵 的 ， 因 为 它们 是 专 为 大 型 数据 仓库 工程 而 设计 。 

在 Mastering Data Mininag (Wiley，1999) 一 书 中 ， 我 们 使 用 Ab Initio 公司 的 一 组 工具 
讨论 了 一 个 案例 研究 。 这 家 公司 专门 研究 并 行 数据 转换 软件 。 该 案例 研究 显示 了 这 种 软件 处 
理 大 量 数据 的 能 力 ， 也 表明 在 这 类 软件 可 用 的 环境 中 要 考虑 的 事情 。 


17.7.3 专用 代码 


代码 是 百 试 百灵 的 完成 数据 转换 的 方法 。 工 具 的 选择 真正 以 程序 员 熟 悉 的 和 可 用 的 工具 
为 基础 。 对 于 客户 特征 标识 需要 的 转换 ， 主 要 的 统计 工具 都 有 足够 的 功能 。 

使 用 专用 代码 的 一 个 缺点 是 它 把 额外 的 层 加 入 数据 转换 过 程 。 数 据 仍 然 必须 从 源 系 统 
(一 个 可 能 的 错误 源 ) 提取 ， 然 后 通过 代码 〈 另 一 个 错误 源 ) 传递 。 撰 写 具 有 很 好 文档 说 明 
的 、 能 重用 的 代码 是 一 个 不 错 的 主意 。 


17.7.4 数据 挖 据 工 具 


逐渐 地 ， 数 据 挖掘 工具 有 能 力 利 用 现 有 工具 转换 数据 。 虽 然 对 非 数 值 数 据 类 型 的 支持 因 
工具 而 不 同 ， 但 大 多 数 工 具有 能 力 从 字段 中 提取 特征 ， 并 且 将 多 个 字段 结合 在 一 起 。 某 些 工 
具 也 支持 客户 特征 标识 汇总 ， 例 如 分 箱 变量 〈 其 中 ， 首 先 通过 观察 整个 数据 集 来 决定 分 箱 断 
点 ) 和 标准 化 。 
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然而 ， 数 据 控 据 工 具 通常 在 查找 数值 和 聚集 数据 方面 很 弱 。 由 于 这 个 原因 ， 客 户 特征 标 
识 几 乎 总 是 在 其 他 地 方 产 生 ， 然 后 载 人 工具 。 来 自主 要 厂商 的 工具 允许 程序 代码 嵌 人 工具 
中 ， 并 且 使 用 SQL 访问 数据 库 。 使 用 这 些 特征 是 一 个 好 主意 ， 因 为 这 些 特征 减少 了 转换 数 
据 时 需要 追踪 的 事情 数量 。 


17.8 小 结 


数据 为 驱动 数据 挖掘 提供 动力 。 数 据 准 备 (data preparation) 的 目标 是 提供 清洁 的 燃 
料 ， 以 便 分 析 引 擎 尽 可 能 高 效 地 工作 。 对 于 大 多 数 算法 而 言 ， 最 佳 输入 使 用 客户 特征 标识 的 
形式 ， 即 一 个 单独 的 数据 行 带 有 描述 客户 不 同方 面 的 字段 。 这 些 字段 多 数 是 输入 栏 ， 有 几 个 
是 项 言 性 模型 的 目标 。 

不 样 的 是 ， 客 户 特征 标识 与 在 可 用 的 系统 中 发 现 数据 的 方式 不 同 -- 一 一 个 很 好 的 理由 是 
客户 特征 标识 随时 间 而 改变 。 事 实 上 ， 和 凭借 构成 有 用 信息 的 数据 和 主意 的 改变 ， 它 们 经 常 被 
创建 和 重建 。 

源 字段 有 几 个 不 同 的 类 型 ， 例 如 数值 、 字 符 串 和 日 期 。 然 而 ， 最 有 用 的 数值 通常 是 那些 
附加 的 数值 。 创 建 衍生 数值 〈derived value) 可 能 像 合并 两 个 字段 那么 简单 ， 或 者 ， 可 能 需 
要 非常 复杂 的 在 大 量 数据 上 的 计算 。 当 试图 根据 时 间 捕 获 客 户 行为 的 时 候 ， 这 尤其 正确 ， 央 
为 不 管 时 间 序 列 正则 与 否 ， 它 们 必然 汇总 用 于 客户 特征 标识 。 

数据 也 遭遇 〈 使 得 我 们 同时 遭遇 ) 一 些 问题 ， 如 缺失 值 、 不 正确 的 数值 和 来 自 不同 源 的 
不 一 致 的 数据 。 一 旦 这 类 问题 被 确认 ， 应 该 研究 它们 。 最 大 的 问题 是 未 知 的 那些 数据 ， 即 数 
据 看 似 正确 ， 但 是 由 于 某 个 原因 实际 上 是 错误 的 数据 。 

许多 数据 挖掘 工作 必须 使 用 不 太 完 美的 数据 。 正 如 冒 着 蓝 烟 但 仍然 设法 沿 着 街道 跑 的 旧 
汽车 一 样 ， 这 些 工作 产生 足够 好 的 结果 。 如 同 爱 尔 兰 剧 作家 Samuel Beckett 所 写 的 名 剧 
Wai or Godor (中 译名 《等 待 戈 多 》) 中 的 流浪 汉 ， 我 们 可 以 选择 等 待 ， 直 到 完美 来 临 ， 但 
那 是 干 不 成 任何 事情 的 方法 ; 较 好 的 选择 是 努力 向 前 ， 不 断 学习 ， 逐 渐 取 得 进步 。 
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第 18 章 ”应 用 数据 挖掘 


你 已 经 到 达 本 书 的 最 后 一 章 ， 并 且 已 经 准备 开始 将 数据 挖 据 用 于 公司 业务 。 你 确信 ， 当 
数据 挖掘 已 经 融和 公司 的 时 候 ， 整 个 企业 将 受益 于 对 客户 和 市 场 与 日 俱 增 的 了 解 、 更 集中 关 
注 的 市 场 、 销 售 资源 的 更 有 效 利 用 ， 以 及 更 多 响应 的 客户 支持 。 你 也 知道 ， 理 解 在 一 本 书 中 
看 到 的 东西 与 实际 付 诸 实施 之 间 有 很 大 的 差别 。 本 章 意 在 桥 连 这 个 隔 闵 。 

由 本 书 作 者 们 创建 的 Data Miners 咨询 公司 ， 已 经 帮助 许多 公司 实施 第 一 次 的 数据 挖掘 
计划 。 虽 然 本 章 重 点 关注 公司 的 第 一 次 数据 挖掘 尝试 ， 但 真正 关心 的 是 如 何 增加 数据 挖掘 计 
划 成 功 的 概率 ， 而 不 管 计划 是 第 一 个 还 是 第 五 十 个 。 本 章 集中 前 面 几 音 的 思想 ， 并 把 这 些 思 
想 应 用 于 数据 挖掘 试验 方案 (pilot project) 的 设计 。 首 先 给 出 整合 数据 挖 据 与 企业 的 一 般 建 
议 。 然 后 讨论 如 何 选择 并 且 实 现成 功 的 试验 方案 。 最 后 以 一 家 公司 的 最 初 数据 挖掘 工作 及 其 
成 功 的 事例 作为 总 结 。 


18.1 开始 


将 数据 挖掘 完 全 整合 到 公司 的 客户 关系 管理 (customer relationship management，CRMD)) 
策略 ， 是 一 项 巨大 和 令 人 晨 惧 的 工程 。 沿 着 既定 方法 ， 采 用 可 实现 的 目标 和 可 测量 的 结果 ， 
逐渐 地 接近 这 个 策略 。 最 终 目 标 是 让 数据 挖掘 很 好 地 融 人 决策 制定 过 程 ， 使 企业 决策 理 所 当 
然 地 使 用 准确 、 及 时 的 客户 信息 。 实 现 这 个 目标 的 第 一 步 是 ， 通 过 易 处 理 的 试验 或 概念 验证 
(proof-of-concept) 方案 ,产生 可 测量 的 投资 回报 ， 从 而 演示 真正 的 数据 挖掘 的 商业 价值 。 
应 该 选择 本 身 有 价值 的 试验 ， 并 且 为 企业 案例 提供 一 种 坚实 的 基础 ， 来 证 明 在 分 析 客 户 关 系 
管理 时 做 进一步 投资 是 有 价值 的 。 

事实 上 ， 试 验方 案 与 任何 其 他 数据 挖掘 计划 没有 什么 不 同 。 尽 管 有 一 些 变化 ， 但 在 试验 
方案 中 仍然 描绘 了 数据 挖掘 良性 循环 (virtuous cycle) 的 所 有 四 个 阶段 。 概 念 验 证 被 限定 在 
预算 和 时 帧 之 中 。 在 试验 方案 中 ， 通 常 需要 修复 的 关于 数据 和 程序 的 某 些 问题 可 能 只 出 现在 
文件 中 。 

提示 : 在 利用 数据 挖 据 逐 渐进 行 企业 改革 的 工作 中 ， 试 验方 案 迈 出 了 有 利 的 第 一 步 。 

以 下 是 我 们 与 客户 合作 的 一 些 数据 挖掘 试验 方案 实例 中 的 主题 语句 : 

。 及 时 找 出 10 000 个 最 有 可 能 在 10 月 流失 的 高 端 移动 电话 客户 ， 以 便 在 九 月 开始 举办 

电话 营销 活动 。 

。 在 德 克 萨 斯 ， 参 考 即食 的 谷类 食品 ， 找 出 西班牙 和 非 西班牙 购物 者 的 购买 简 档 〈pro- 

file) 的 差别 ， 从 而 更 好 地 指导 西班牙 语 的 广告 营销 活动 。 

。 通 过 发 现 最 佳 客户 的 共同 点 来 指导 扩充 计划 ， 并 且 定 位 于 能 发 现 相似 客户 的 新 市 场 。 

。 在 公司 数据 仓库 的 客户 之 间 建 立 模型 ， 识 别 市 场 研究 (market research) 片段 ， 从 而 

能 够 有 针对 性 地 将 有 关 信 息 传递 给 适当 的 客户 。 

。 预 测 后 几 个 月 的 债务 回收 预期 程度 ， 以 便 设 法 制定 一 个 计划 。 

这 些 例 子 表 明了 数据 挖掘 致力 解决 的 问题 的 多 样 性 。 在 每 种 情况 中 ， 数 据 控 掘 的 挑战 是 找 
到 并 且 分 析 适 当 的 数据 来 解决 商务 问题 。 然 而 ， 这 个 过 程 首 先 从 选择 正确 的 示范 方案 开始 。 
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400 多 18 章 


18.1.1 从 概念 验证 方案 中 能 期 待 什么 


当 概 念 验证 方案 是 完整 的 时 候 ， 下 列 各 项 是 可 用 的 : 

。 原 型 模型 开发 系统 (可 能 被 外 包 ， 或 者 是 生产 系统 的 核心 ) 

。 儿 种 数据 挖掘 技术 和 工具 的 评 佑 〈 除 非 预先 确定 工具 ) 

* 一 个 修改 商务 过 程 和 系统 使 之 与 数据 挖掘 一 体 化 的 计划 

“产生 数据 挖掘 环境 的 描述 

“在 数据 挖掘 和 客户 分 析 中 的 投资 商务 案例 

即使 已 经 决定 投资 数据 挖掘 时 ， 概 念 验证 方案 仍 是 首次 返 和 数据 挖掘 良性 循环 的 重要 方 
法 。 沿 着 这 个 方法 ， 应 该 会 面临 挑战 和 和 暂时 的 困难 ， 因 为 这 样 一 个 方案 涉及 企业 的 几 个 不 同 
部 门 ， 包 括 技术 和 操作 部 门 ， 并 且 需 要 他 们 以 也 许 不 熟悉 的 方式 一 起 工作 。 


18.1.2 识别 概念 验证 方案 


概念 验证 方案 的 目的 是 ， 当 管理 风险 的 时 候 ， 有 效 地 发 挥 数 据 挖掘 的 效用 。 方 案 应 该 足 
够 小 ， 因 而 是 实用 的 ; 足够 重要 ， 因 而 是 有 意义 的 。 成 功 的 数据 挖 气概 念 验证 方案 将 产生 可 
测量 结果 的 行为 。 为 了 寻找 概念 验证 的 候选 者 ， 研 究 现 有 的 部 务 过 程 ， 来 识别 在 哪些 领域 中 
数据 挖掘 可 以 提供 结果 能 以 美元 测量 的 切实 利益 。 也 就 是 说 ， 为 进一步 将 数据 挖掘 整合 到 公 
司 的 营销 、 销 售 和 客户 - 支持 操作 ， 概 念 验证 应 该 创造 可 靠 的 商务 案例 。 

吸引 注意 力 和 编制 美元 预算 方案 的 一 个 好 方法 是 ， 使 用 数据 挖掘 来 满足 真正 的 业务 需 
求 。 最 令 人 信服 的 概念 验证 方案 重点 关注 已 经 被 测量 和 分 析 评 估 的 区 域 ， 并 且 在 这 些 区 域 具 
有 公认 的 进一步 完善 的 需求 。 有 可 能 的 候选 情况 包括 : 

“响应 模型 

* 默认 风险 模型 

。 流 失 模型 

。 使 用 模型 

。 收益 模型 

在 这 些 领域 ， 改 善 预测 准确 度 和 改善 收益 之 间 有 明确 的 联系 。 利 用 某 些 方案 ， 容 易 对 数 
据 挖掘 结果 采取 行动 。 这 并 不 能 说 ， 重 点 关注 日 益 增 加 的 洞察 力 和 理解 ， 但 没有 任何 与 结果 
的 直接 联系 ， 试 验方 案 就 不 可 能 成 功 。 然 而 ， 建 立 商务 案例 是 比较 困难 的 。 

潜在 的 新 信息 用 户 时常 具 有 创造 性 和 丰富 的 想象 力 。 在 面谈 期 间 ， 鼓 励 他 们 想象 开发 真 
实地 学 习 客 户 关系 的 方法 。 同 时 ， 制 作 可 用 数据 源 的 详细 目录 ， 识 别 〈identifying) 期 望 或 
必需 的 附加 字段 。 在 数据 已 经 装 人 仓库 的 地 方 ， 学 习 数据 字典 和 数据 库 模式 。 当 源 系统 
(source system) 是 操作 系统 的 时 候 ， 研 究 未 来 提供 数据 的 记录 布局 ， 并 且 开 始 了 解 那些 熟 
悉 系 统 如 何 处 理 和 存储 信息 的 人 们 。 

概念 验证 选择 过 程 的 一 部 分 工作 是 ， 对 可 用 的 记录 和 字段 建立 简 档 ， 以 便 初 步 了 解数 据 
中 的 关系 ， 得 到 某 些 可 能 阻碍 数据 挖掘 进程 的 数据 问题 的 早期 警告 。 这 个 工作 可 能 需要 一 定 
量 的 数据 清理 、 过 滤 和 转换 。 

一 且 确 定 了 几 个 候选 方案 ， 就 可 以 从 以 下 几 个 方面 来 估计 方案 ， 包 括 依 据 结果 采取 行动 
的 能 力 、 潜 在 结果 的 有 效 性 、 数 据 的 可 用 性 和 技术 工作 层面 。 关 于 每 个 试验 方案 ， 最 重要 的 
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应 用 雪 据 控 据 401 


问题 之 一 是 “结果 将 如 何 被 使 用 ?” 如 同 在 后 面 “ 成 功 的 概念 验证 ”部 分 中 的 例子 前 明 的 一 
样 ， 数 据 挖掘 试验 方案 共同 的 命运 是 技术 上 的 成 功 ， 但 却 未 得 到 正确 评价 ， 因 为 没有 人 能 领 
会 利用 这 些 结果 做 什么 。 

当然 ， 也 有 许多 源 于 IT 的 成 功 数据 挖掘 方案 的 例子 。 然 而 ， 当 引导 数据 挖掘 的 人 们 没 
有 定位 在 营销 或 者 与 客户 直接 交流 的 某 个 其 他 团体 时 ， 赞 助 或 者 至 少 来 自 这 类 团体 的 输入 对 
于 成 功 的 方案 是 重要 的 。 虽 然 数据 挖掘 需要 与 数据 库 和 分 析 软 件 形成 互动 ,但 它 主要 不 是 
IT 方案 ， 并 且 不 应 该 尝试 与 所 讨论 的 商务 问题 的 拥有 者 隔绝 。 

提示 : 数据 挖 气 试 验方 案 可 能 基于 公司 内 几 个 团体 中 的 任何 一 个 ， 但 是 ， 它 必须 总 

是 包括 团体 中 活跃 的 参与 者 ， 即 所 讨论 的 商业 问题 的 拥有 者 。 

营销 活动 创造 出 好 的 概念 验证 方案 ， 因 为 在 大 多 数 公 司 ， 已 经 有 测量 此 类 活动 结果 的 文 
化 。 对 照 实验 表明 ， 与 直接 邮寄 、 电 话 推销 或 电子 邮件 活动 相对 应 的 统计 意义 显著 的 改进 可 
以 很 容易 地 转化 为 经 济 利益 。 证 明 数 据 挖掘 价值 的 最 好 方法 是 利用 超越 估计 模型 的 示范 方 
案 ， 以 模型 为 基础 ， 实 际 测量 活动 的 结果 。 尽 管 不 可 能 ， 仍 要 仔细 思考 如 何 增加 示范 方案 结 
果 的 经 济 价值 。 在 有 些 情形 中 ， 测 试 根据 历史 数据 从 数据 控 气 获得 新 模型 就 足够 了 。 


成 功 的 概念 验证 

数据 挖掘 概念 验证 方案 可 以 说 技术 上 是 成 功 的 ， 然 而 总 的 来 说 令 人 失望 。 例 如 ， 一 家 移 
动 电 话 公司 开始 实施 数据 挖 据 方 案 ， 以 期 更 好 地 了 解 客户 流失 。 该 方案 在 识别 儿 个 高 流失 风 
险 的 客户 片段 中 获得 成 功 。 利 用 被 识别 的 团体 ， 公 司 可 以 为 留 住 这 些 客户 提供 激励 。 到 目前 
为 让， 方案 看 起 来 是 一 个 好 的 、 能 够 返回 可 操作 结果 的 概 您 验证 。 

这 个 数据 挖掘 模型 发 现 一 群 高 风险 客户 ， 由 呼叫 行为 与 其 套餐 计划 不 相 匹 配 的 用 户 组 
成 。 这 些 客户 的 一 个 子 群 位 于 低 的 月 套餐 计划 ， 相 应 地 ， 通 话 分 钟 数 很 少 。 此 类 计划 对 于 不 
经 常 使 用 电话 的 人 有 意义 ， 例 如 “安全 用 户 ”(safety user)， 他 们 把 电话 留 在 汽车 储藏 柜 中 ， 
很 少 打开 ， 但 是 从 紧急 情况 下 电话 可 用 这 一 点 来 说 却 是 安全 的 。 当 这 类 用 户 改 变 打 电 话 的 习 
惯 〈 如 同 有 时 候 发 生 的 那样 ， 一 旦 他 们 认识 到 移动 电话 的 有 效 性 ) 的 时 候 ， 他 们 最 终 不 会 使 
用 比 套 餐 计划 更 多 的 分 钟 数 ， 因 为 需要 为 超出 部 分 支付 较 高 的 每 分 钟 费 用 。 

由 于 被 模型 识别 为 高 风险 的 群体 被 妃 踪 ， 而 且 事实 上 他 们 确实 陆续 离开 ， 公 司 宣布 ， 数 
据 挖掘 方案 是 成 功 的 。 然 而 ， 因 为 发 起 数据 挖掘 计划 的 团体 的 主旨 是 探究 新 技术 方案 ， 而 不 
是 处 理 客 户 关 系 ， 所 以 没有 采取 任何 行动 。 狭 义 地 讲 ， 方 案 的 确 是 成 功 的 。 它 证 明 数 据 挖 所 
能 够 识别 高 风险 流失 客户 的 概念 。 广 义 地 讲 ， 企 业 还 没有 为 数据 挖掘 做 好 准备 ， 因 此 ， 无 法 
成 功 地 对 结果 采取 行动 。 

对 于 这 些 客 户 ， 企 业 面临 着 另外 的 挑战 。 只 要 匹配 不 当 的 客户 继续 保持 原状 态 ， 支 付 昂 
贵 的 过 度 呼 巴 或 特别 昂贵 的 套餐 计划 ， 他 们 是 相当 有 利 可 图 的 。 把 他 们 转移 到 省 钱 〔“ 正 确 
规划 ” 凶 们 ) 的 计划 ， 可 以 非常 好 地 减少 流失 ， 但 也 减少 收益 。 哪 一 个 更 重要 呢 ， 是 流失 还 
是 收益 ? 通常 ， 数 据 挖掘 提出 的 问题 和 回答 的 问题 一 样 多 ， 而 且 某 些 问题 的 答案 更 多 地 取决 
于 商业 策略 ， 而 不 是 数据 挖掘 结 果 。 


18.1.3 实现 概念 验证 方案 


一 且 选 择 适 当 的 商务 问题 ， 第 二 个 步骤 是 ， 识 别 和 收集 能 被 转换 为 可 操作 信息 的 数据 。 
数据 源 已 经 被 确定 为 选择 概念 验证 方案 过 程 的 组 成 部 分 。 第 三 个 步骤 是 ， 从 那些 源 中 提取 数 
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据 ， 并 转变 为 前 面 章节 中 介绍 的 客户 特征 标识 。 在 设计 好 的 客户 特征 标识 时 ， 开 始 几 次 是 不 
易 处 理 的 。 这 是 资深 数据 挖掘 者 的 帮助 可 能 有 价值 的 领域 。 

除了 构造 初始 客户 特征 标识 之 外 ， 还 需要 探索 原型 数据 和 模型 开发 环境 。 这 个 环境 可 能 是 
由 软件 公司 或 数据 挖掘 顾问 服务 公司 提供 ， 或 内 部 构建 为 试验 方案 的 组 成 部 分 。 数 据 挖掘 环境 
可 能 由 安装 在 专用 的 分 析 工 作 站 上 的 数据 挖掘 软件 系列 构成 。 模 型 开发 环境 应 该 足够 充分 ， 以 
便 允 许 进行 多 种 数据 挖掘 技术 测试 。 关 于 选择 数据 挖掘 软件 和 建立 数据 挖掘 环境 ， 第 16 章 已 
给 出 建议 。 概 念 验证 方案 的 目标 之 一 是 ， 决 定 哪 项 技术 对 于 解决 特定 的 商务 问题 最 有 效 。 

使 用 原型 数据 挖 气 系 统 涉及 一 个 过 程 ， 即 精炼 在 环境 、 现 有 的 操作 系统 和 决策 支持 计算 
环境 之 间 的 数据 提取 需求 和 接口 。 期 望 这 个 反复 的 过 程 能 够 提供 所 需 的 对 未 来 数据 挖 气 环 境 
的 更 好 理解 。 早 期 的 数据 挖掘 结果 将 提出 新 建 模 方法 和 对 客户 特征 标识 的 改进 。 

一 旦 原型 数据 挖掘 环境 建立 ， 使 用 它 建立 预言 性 模型 (predictive model) 。 当 概念 验证 方案 
已 经 明确 ， 应 用 模型 完成 最 初 的 识别 高 回报 的 任务 。 小 心 测量 模型 在 历史 数据 上 的 性 能 。 

没有 在 内 部 实际 构建 原型 数据 挖掘 环境 的 情况 下 ， 通 过 使 用 外 部 设备 ， 完 成 整个 概念 验 
证 方案 也 是 切实 可 行 的 。 这 种 方法 有 利 也 有 弊 。 从 积极 的 方面 看 ， 数 据 控 气 顾问 从 在 其 他 公 
本 的 数据 上 工作 的 经 历 获得 丰富 经 验 用 来 指导 当前 处 理 的 问题 。 专 家 拥有 应 用 广泛 的 数据 挖掘 
工具 和 技术 的 知识 和 经 验 ， 而 公司 的 任何 一 位 职员 是 不 太 可 能 具有 这 种 知识 和 经 验 的 。 从 消极 
的 方面 看 ， 如 果 顾 问 做 了 全 部 的 实际 数据 挖掘 工作 ， 你 和 你 的 职员 就 不 会 获得 更 多 的 有 关 数 据 
挖 据 过 程 的 知识 。 或 许 最 佳 的 折衷 方案 是 ， 组 织 同时 包括 外 部 顾问 和 公司 内 部 人 员 的 团队 。 

1. 基于 发 现 采 取 行 动 

下 一 步 是 测量 建 模 的 结果 。 在 某 种 情况 下 ， 最 佳 方法 是 使 用 历史 数据 〈 对 于 有 益 的 比 
较 ， 利 用 过 时 的 例子 更 适宜 )。 另 外 的 需要 与 其 他 团体 更 多 合作 的 可 能 性 是 ， 建 立 对 照 实验 ， 
将 基于 数据 控 气 采取 的 行动 的 效果 与 当前 的 基准 线 进 行 比较 。 这 种 对 照 实验 对 于 已 经 有 进行 
此 类 实验 基础 的 公司 尤其 有 价值 。 

最 后 ， 使 用 建 模 结果 (不 管 来 自 历 史 测 试 或 真实 的 实验 ) 构建 商务 案例 ， 将 数据 挖掘 整 
合 人 稳定 的 商务 运作 中 。 

有 时 ， 试 验方 案 的 结果 是 得 到 对 客户 和 市 场 的 深信 了 解 。 在 这 种 情况 下 ， 通 过 向 商业 人 
士 提 供 深入 了 解 ， 成 功 更 多 取决 于 主观 性。 虽然 这 似乎 是 较 容 易 的 概念 验证 方案 ， 但 是 在 数 
周 之 内 发 现 结果 ， 并 给 具有 多 年 经 验 的 商业 人 士 留 下 深刻 的 印象 ， 具 有 相当 的 挑战 性 。 

许多 数据 挖掘 概念 验证 方案 没有 雄伟 目标 ， 因 为 最 初 的 设计 是 为 了 评估 技术 而 并 非 应 用 
的 结果 。 最 佳 情 况 是 ， 更 好 的 模型 和 更 好 的 商务 结果 之 间 的 联系 不 再 是 假设 ， 而 是 通过 真实 
结果 来 证 明 。 统 计 师 和 分 析 师 可 能 对 理论 结果 留 下 深刻 的 印象 ， 而 高 级 管理 人 员 却 不 是 
这 样 。 

用 于 显示 在 测试 数据 集 上 新 模型 取得 的 响应 率 提升 度 的 图 给 人 留 下 深刻 的 印象 ， 然而， 
通过 模型 获得 的 新 客户 给 人 留 下 的 印象 更 深刻 。 

2. 测量 行动 结果 

测量 数据 挖掘 模型 本 身 的 有 效 性 和 根据 模型 预测 结果 而 采取 的 行动 对 商业 的 真实 影响 都 
很 重要 。 

提升 度 是 测量 模型 自身 有 效 性 的 一 种 适当 方法 ， 提 升 度 测量 某 个 特定 类 型 (例如 响应 者 
或 默认 者 ) 的 记录 的 集中 程度 随 模型 得 分 的 变化 。 为 了 测量 对 商务 的 影响 ， 需 要 更 多 的 信 
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息 。 如 果 试 验方 案 建立 了 一 个 响应 模型 ， 请 继续 追踪 下 列 费 用 和 收益 ， 

。 开 展 活动 和 建立 支持 模型 的 国定 费用 是 多 少 ? 

。 每 位 接受 者 获得 的 促销 服务 的 费用 是 多 少 ? 

。 响 应 每 一 个 促销 服务 的 费用 是 多 少 ? 

。 积 极 响应 的 价值 是 多 少 ? 

最 后 一 项 似乎 很 明显 ， 但 通常 被 忽略 。 我 们 已 经 见 到 不 止 一 项 数据 挖掘 工作 在 开始 后 陷 
入 困境 ， 因 为 尽管 结果 表明 ， 数 据 挖掘 可 以 带 来 更 多 的 客户 ， 但 是 关于 新 客户 的 价值 没有 一 
个 清晰 的 模型 ， 因 此 对 于 获得 的 收益 就 没有 清楚 的 了 解 。 

设计 好 的 营销 测试 细节 超出 了 本 书 的 范围 ， 但 控制 数据 挖掘 模 型 的 效能 和 使 用 服务 或 宣 
传 信息 的 效能 都 很 重要 。 这 可 以 通过 追踪 四 个 不 同 群体 的 响应 来 完成 

。 和 群体 A， 由 数据 挖掘 模 型 选择 用 于 接受 促销 服务 。 

*。 和 群体 B， 随 机 选择 用 于 接受 相同 促销 服务 。 

*。 和 群体 C， 也 是 随机 选择 但 未 获得 促销 服务 。 

*。 和 群体 D， 由 模型 选择 用 于 接受 促销 服务 ， 但 事实 上 没有 得 到 促销 服务 。 

如 果 模 型 在 发 现 适 当 的 客户 方面 性 能 良好 ， 和 群体 A 的 响应 率 会 显著 地 高 于 群体 B 的 响 
应 率 。 如 果 服 务 是 有 效 的 ， 群 体 了 的 响应 率 会 超过 群体 C。 有 时 ， 模 型 在 发 现 无 效 服务 的 响 
应 者 方面 性 能 良好 ， 在 这 种 情形 下 ， 和 群体 A 和 群体 D 有 相似 的 响应 率 。 每 一 轮 两 两 比较 ， 
回答 一 个 不 同 的 问题 ， 如 图 18-1 所 示 。 


模型 在 铀 县 响应 方面 的 性 能 如 何 ? 


随机 及 包括 (群体 B) 建 模 系 包括 (群体 A) 
随机 选择 的 客户 高 模型 得 分 客户 
包括 在 活动 中 包括 在 活动 中 
消息 对 随机 客 消息 对 已 建 模 客 
户 的 性 能 如 何 ? 户 的 性 能 如 何 ? 


随机 及 不 包括 (群体 C) 建 模 系 不 包括 (群体 D) 


随机 选择 客户 高 模型 得 分 客户 
不 包括 在 活动 中 不 包括 在 活动 中 


模型 在 测量 倾向 性 方面 性 能 如 何 ? 
图 18-1 追踪 四 组 不 同 的 群体 能 够 同时 决定 活动 的 效果 和 模型 的 效果 


后 一 种 情形 确 有 发 生 。 一 家 加 拿 大 银行 使 用 模型 挑选 那些 可 能 通过 直接 邮寄 活动 开设 投 
资 账户 的 客户 。 事 实 上 ， 通 过 模型 挑选 的 人 ， 不 管 是 否 收 到 了 促销 材料 ， 开 设 投 资 账户 的 比 
例 确实 高 于 其 他 客户 。 在 这 种 情况 下 ， 有 一 个 简单 的 理由 。 银 行使 用 有 关 投 资 账户 的 消息 全 
方位 地 影响 客户 ， 像 广告 、 分 支 机 构 的 海报 、 宣 传 短片 和 客户 打 人 电话 并 待机 时 播放 的 消 
息 。 相 对 于 这 些 信息 ， 直 接 邮 寄 宣 传 品 是 多 余 的 。 
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18.2 选择 数据 挖 据 技 术 


应 用 哪 种 或 者 哪些 数据 挖掘 技术 ， 取 决 于 要 完成 的 特定 数据 挖掘 任务 和 分 析 可 用 的 数 
据 。 在 确定 一 项 数据 挖掘 技术 之 前 ， 首 先 把 要 处 理 的 商务 问题 转化 为 一 系列 的 数据 挖掘 任 
务 ， 并 且 根 据 内 容 和 数据 字段 的 类 型 来 领会 可 用 数据 的 性 质 。 


18.2.1 将 商务 目标 转换 为 数据 挖 握 任 务 


第 一 步 是 ， 获 得 诸如 “改善 保持 ”的 商务 目标 ， 并 且 将 其 转换 成 一 项 或 多 项 第 1 章 介绍 
的 数据 挖 据 任 务 。 回 忆 一 下 ， 本 书 所 讨论 的 数据 控 气 技术 解决 的 六 项 基本 任务 是 : 

。 分 类 

。 佑 计 

。 预 测 

。 关 联 分 组 

。 聚 类 

。 建 立 简 档 和 描述 

实现 改善 保持 的 商务 目标 的 一 种 方法 是 ， 识 别 可 能 取消 的 用 户 〈subscriber) ， 找 出 取消 
的 原因 ， 制 造 一 些 类 型 的 服务 来 解决 他 们 关注 的 问题 。 成 功 的 策略 必须 识别 可 能 取消 的 用 
户 ， 并 且 依 照 假 设 离开 的 理由 将 这 些 用 户 分 配 到 一 些 群 体 。 然 后 ， 为 每 个 群体 设计 出 适当 的 
保持 服务 。 

使 用 的 模型 集 如 果 包 含 已 经 取消 的 客户 实例 和 尚未 取消 的 客户 实例 ， 那 么 本 书 讨论 的 许 
多 数据 挖掘 技术 可 能 把 每 位 客户 或 多 或 少 地 标注 为 可 能 流失 。 识 别 独 立 的 风险 用 户 片 段 和 理 
解 每 个 组 离开 的 动机 的 附加 需求 ， 提 出 了 应 该 使 用 决策 树 和 巧妙 的 衍生 变量 。 

决策 树 的 每 片 叶子 有 一 个 标签 ， 在 这 种 情况 下 ， 大 概 是 “不 可 能 流失 ”或 “可 能 流失 ”。 
树 上 的 每 片 叶子 有 不 同 的 目标 变量 比例 ; 这 个 流失 者 的 比例 可 当 作 流失 得 分 使 用 。 每 片 叶 子 
也 有 一 组 规则 ， 描 述 在 该 处 结束 的 客户 。 利 用 技巧 和 创造 性 ， 分 析 家 也 许 能 够 将 这 些 机 械 的 
规则 变 成 可 理解 的 离开 的 理由 ， 一 旦 被 理解 ， 就 可 以 采取 行动 来 阻止 。 通 常 ， 决 策 树 具有 上 比 
为 了 开发 特别 服务 和 电话 营销 活动 所 期 望 的 叶子 更 多 。 为 了 把 这 些 叶 子 联合 成 更 大 的 群体 ， 
把 整个 树枝 作为 群体 ， 而 不 是 单独 的 叶子 。 

值得 注意 的 是 ， 在 这 种 情况 下 ， 选 择 决策 树 方法 ， 是 源 于 对 了 解 流失 (attrition) 理由 
的 欲望 和 区 别 对 待 子 群 的 欲望 。 如 果 目 标 仅仅 是 最 大 限度 地 预测 风险 客户 ， 而 无 需 关 心理 
由 ， 就 可 以 选择 不 同 的 方法 。 不 同 的 商务 目标 需要 使 用 不 同 的 数据 挖掘 技术 。 如 果 目 标 是 佑 
计 下 个 月 每 位 用 户 使 用 的 分 钟 数 ， 神 经 网 络 〈neural network) 或 者 回归 (〈regression) 可 能 
是 较 好 的 选择 。 如 果 目 标 是 发 现 自然 发 生 的 客户 片段 ， 非 定向 聚 类 (undirected clustering ) 
技术 或 简 档 和 假设 测试 (hypothesis testing) 是 合适 的 选择 。 


18.2.2 决定 数据 的 相关 特性 


一 旦 数据 挖 据 任 务 已 经 确定 ， 并 且 用 于 缩小 所 考虑 的 数据 挖 据 方 法 的 范围 ， 可 用 数据 的 
特征 有 助 于 更 进一步 地 细 化 这 一 选择 。 用 更 一 般 的 术语 来 说 ， 目 标 是 选择 能 够 最 小 化 数据 转 
换 的 数量 和 难度 的 数据 挖掘 技术 ， 这 些 转 换 是 从 数据 得 到 有 益 的 结果 所 必须 执行 的 。 
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如 同 前 一 章 的 讨论 ， 一 定量 的 数据 转换 总 是 数据 挖掘 过 程 的 组 成 部 分 。 原 始 数 据 可 能 需要 
以 各 种 不 同 的 方式 进行 汇总 ， 数 据 编码 必须 合理 化 ， 等 等 。 不 管 选 择 的 技术 是 什么 ， 这 些 类 型 
的 转换 是 必需 的 。 然 而 ， 对 于 有 些 数据 控 气 技术 ， 某 些 类 型 的 数据 引起 一 些 特别 的 问题 。 

1. 数据 类 型 

对 于 使 用 输入 变量 为 数值 型 数值 的 数据 挖掘 技术 来 说 ， 分 类 变量 尤其 有 问题 。 能 进行 求 
和 与 乘法 运算 的 这 类 数值 型 变量 ， 迎 合 一 些 基 于 算术 运算 的 数据 挖掘 技术 的 实力 ， 例 如 回 
归 、 开 平均 聚 类 和 神经 网 络 。 当 数据 具有 许多 分 类 变量 的 时 候 ， 决 策 树 是 相当 有 用 的 ， 尽 管 
关联 规则 (association rule) 和 链接 分 析 〈link analysis) 可 能 在 某 些 情 形 中 也 是 适用 的 。 

2. 输入 字段 的 数量 

在 定向 数据 挖掘 应 用 中 ， 应 该 有 单一 的 目标 字段 或 者 依赖 变量 。 其 他 的 字段 〈 不 包括 那 
些 明确 无 关 或 者 明显 依赖 于 目标 变量 的 字段 ) 被 当 作 洪 在 的 模型 输入 。 数 据 挖掘 方法 在 成 功 
地 处 理 大 量 输入 字段 的 能 力 方面 是 不 一 样 的。 对 于 特定 的 应 用 ， 这 可 能 是 在 确定 合适 技术 方 
面 的 一 个 因素 。 

一 般 来 说 ， 当 字段 的 数目 非常 大 的 时 候 ， 依 赖 于 调整 权重 向 量 的 技术 将 陷入 麻烦， 其 中 
的 向 量 对 每 个 输入 字段 分 配 一 个 元 素 。 神 经 网 络 和 基于 存储 的 推理 (memory-based reason- 
ing) 就 是 例子 。 关 联 规则 面临 不 同 的 问题 。 该 技术 查看 所 有 可 能 的 输入 组 合 ; 随 着 输入 量 
的 增长 ， 在 合理 的 时 间 内 处 理 组 合 变 得 不 可 能 。 

决策 树 方法 很 少 受 大 量 字段 的 影响 。 构 建树 的 时 候 ， 决 策 树 算 法 识别 在 每 个 结 点 上 贡献 
最 多 信息 的 单个 字段 ， 并 且 下 一 个 规则 片段 仅仅 以 那个 字段 为 基础 。 数 十 个 或 数 百 个 其 他 的 
字段 可 能 逢 场 作 戏 ， 但 是 在 最 终 规则 中 不 会 表现 出 来 ， 除 非 它们 有 助 于 解决 问题 。 

提示 : 对 于 定向 数据 挖掘 问 题 ， 当 面临 大 量 字段 的 时 候 ， 以 构建 决策 树 作 为 开始 是 一 

个 好 主意 ， 即 使 最 后 的 模型 构建 要 使 用 不 同 的 技术 。 决 策 树 将 会 识别 字段 的 一 个 好 的 

子 集 ， 将 其 用 作 另 一 项 技术 的 输入 ， 该 项 输入 可 能 淹没 在 最 初 的 输入 变量 集中 。 

3. 自由 形态 文本 

许多 数据 挖掘 技术 不 能 直接 处 理 自由 形态 文本 。 但 是 很 清楚 的 是 ， 文 本 字段 时 常 包含 极 
有 价值 的 信息 。 当 分 析 独 立 的 经 销 商 向 发 动机 制造 商 提交 的 维修 声明 时 ， 机 械 工 解 释 出 错 信 
息 和 修复 问题 方法 的 自由 形态 的 记录 至 少 与 那些 表示 维修 零件 数目 和 所 用 工时 的 固定 的 字段 
同样 有 价值 。 

能 处 理 自 由 文本 的 一 种 数据 挖掘 技术 是 基于 存储 的 推理 ， 即 在 第 8 章 讨论 过 的 最 近邻 方 
法 之 一 。 回 忆 一 下 ， 基 于 存储 的 推理 基于 测量 数据 库 一 条 记录 到 所 有 其 他 记录 的 距离 的 能 
力 ， 以 得 到 相似 记录 的 近邻 。 通 常 ， 发 现 适 当 的 匠 离 度量 (measure) 是 一 个 使 应 用 技术 陷 
人 困境 的 绊脚石 ， 但 是 在 信息 检索 领域 的 研究 人 员 已 经 提出 在 两 个 文本 块 之 间 的 好 的 距离 度 
量 。 这 些 度量 以 文件 之 间 的 词汇 重要 为 基础 ， 尤 其 是 不 常见 的 字 和 专 有 名 词 。 网 络 搜寻 引擎 
查找 适当 文章 的 能 力 是 一 个 熟知 的 文本 挖掘 的 例子 。 

如 第 8 章 所 述 ， 基 于 存储 的 自由 形态 文本 推理 也 已 经 被 应 用 于 把 工人 按照 产业 和 工作 分 
类 。 这 些 工 作 分 类 基于 美国 人 口 普查 的 宛 长 表格 所 提供 的 书面 工作 描述 ， 并 且 对 新 闻 报 道 添 
加 关键 字 。 


18.2.3 考虑 混合 方法 
有 时 ， 几 种 技术 组 合 比 任何 单一 方法 的 效果 更 好 。 这 可 能 需要 把 单一 数据 挖掘 任务 分 解 
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成 两 个 或 多 个 子 任务 。 第 2 章 的 汽车 营销 例子 是 一 个 好 的 样本 。 研 究 人 员 发 现 ， 选 择 特 定 汽 
车 型 号 的 潜在 顾客 的 最 佳 方法 是 ， 首 先 使 用 神经 网 络 识别 可 能 买 汽车 的 人 ， 然 后 使 用 决策 树 
预测 每 位 购车 者 会 选择 的 特别 型 号 。 

另 一 个 例子 是 ， 一 家 银行 使 用 三 个 变量 作为 信用 诱惑 决策 的 输入 。 三 个 输入 估计 如 下 : 

。 响 应 的 可 能 性 

。 来 自 该 客户 的 第 一 年 计划 收益 〈revenue) 

“新 客户 未 履行 任务 的 风险 

这 些 任务 在 几 个 方面 显著 不 同 ， 包 括 可 能 有 用 的 训练 数据 (training data) 的 数量 ， 看 
似 重要 的 输入 字段 ， 以 及 检验 预测 的 准确 度 所 需要 的 时 间 长 度 。 邮 寄 后 不 久 ， 银 行 确 切 知道 
谁 是 响应 者 ， 因 为 诱惑 计划 包含 一 个 最 后 期 限 ， 在 这 个 期 限 之 后 的 响应 视 为 无 效 。 在 核对 第 
一 年 的 估计 收益 和 实际 数量 之 前 ， 必 须 经 过 整整 一 年 的 时 间 ， 并 且 客 户 可 能 经 过 更 长 的 时 间 
才 会 “ 变 差 ”。 给 定 所 有 这 些 差异 ， 并 不 令 人 惊讶 的 是 ， 不 同 数据 挖掘 技 术 对 每 项 工作 可 能 
都 是 最 佳 选 择 。 


18.3 公司 如 何 开 展 数据 挖掘 


多 年 来 ， 作 者 见证 了 许多 公司 进行 第 一 次 数据 挖掘 的 尝试 。 虽 然 每 家 公司 的 情形 是 独特 
的 ， 但 显现 出 一 些 共性 。 在 每 家 公司 ， 有 一 位 负责 数据 挖掘 方案 的 人 ， 确 实 相信 分 析 客 户 关 
系 管理 的 力量 和 潜能 的 原因 ， 通 常 是 因为 他 或 她 已 在 其 他 公司 见 到 这 种 事情 。 这 位 负责 人 通 
常 不 是 技术 专家 ， 而 且 经 常 不 做 任何 实际 的 技术 工作 。 他 或 她 的 作用 是 作为 组 织 人 ， 建 立 数 
据 挖掘 团队 和 保护 数据 挖 据 试 验方 案 的 赞助 者 的 地 位 。 

成 功 的 努力 越过 企业 边界 ， 涉 及 营销 和 信息 技术 人 员 。 团 队 经 常 是 相当 小 的 ， 时 常 只 有 
4~S 个 人 ， 但 仍然 包括 了 解数 据 的 人 ， 了 解数 据 控 气 技 术 的 人 和 了 解 处 理 商 务 问题 的 人 ， 
并 且 至 少 一 个 人 具有 应 用 数据 挖 据 处 理 商 务 问 题 的 经 验 。 有 时 ， 这 些 角 色 中 的 儿 个 角色 可 能 
汇集 到 一 个 人 身上 。 

在 所 有 的 情况 中 ， 最 初 的 数据 控 握 试验 方案 解决 了 对 企业 来 说 真正 至 关 重 要 的 问题 ， 在 
这 种 问题 上 ， 能 够 体现 成 功 的 价值 。 一 些 最 佳 试验 方案 是 为 测量 数据 挖掘 的 有 用 性 而 设计 ， 
方法 是 观察 数据 挖掘 工作 所 建议 的 行动 的 结果 。 

其 中 一 家 无 线 电话 服务 提供 商 同 意 我 们 描述 他 的 数据 挖 据 试 验方 案 。 


18.3.1 保持 的 对 照 实验 


Comcast Cejlular 公司 是 一 家 无 线 电话 服务 提供 商 ， 在 1996 年 ， 该 公司 主要 关注 环 惕 城 
附近 三 个 州 的 区 域 ， 拥 有 750 万 人 的 市 场 。1999 年 ，Comcast Cellular 公司 被 SBC 公司 收购 ， 
现在 已 经 是 Cingular 公司 的 组 成 部 分 ， 但 是 当 这 项 试验 研究 进行 的 时 候 ， 它 是 一 家 地 方 服务 
提供 商 ， 面 对 快速 增长 的 全 国 网 络 的 激烈 竞争 。 日 益 激烈 的 竞争 意味 着 用 户 会 面 对 很 多 竞争 
对 手 的 服务 ， 并 且 每 个 月 都 有 很 大 比例 的 客户 转向 有 竞争 力 的 服务 。 正 如 行业 所 称 ， 这 种 流 
失 是 困惑 所 在 ， 因 为 即使 新 用 户 数 轻易 地 超过 离 去 者 的 数目 ， 但 获取 一 位 新 客户 的 代价 时 常 
在 $500 一 $600 的 范围 。 流 失 已 在 第 4 章 给 出 了 详细 的 讨论 。 

面 对 更 多 竞争 对 手 泰 然 自 若 地 进入 市 场 ，Comcast Cellular 公司 希望 利用 积极 主动 的 工 
作 热 情 ， 确 保持 续 不 断 地 抓紧 现 有 的 用 户 。 困 难 在 于 了 解 娜 些 是 风险 客户 ， 并 且 原 因 是 什 
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么 。 对 于 任何 保持 活动 ， 了 解 哪些 是 风险 客户 很 重要 ， 因 为 保持 服务 要 花费 公司 的 资金 。 向 
无 论 如 何 可 能 保留 的 客户 提供 诱导 没有 任何 意义 。 理 解 什 么 动机 使 不 同 的 客户 片段 离开 是 同 
等 重要 的 ， 因 为 不 同 的 保持 服务 适合 不 同 的 客户 片段 。 提 供 免 费 的 晚间 和 周末 分 钟 数 ， 对 主 
要 使 用 电话 与 朋友 保持 联络 的 客户 可 能 非常 有 吸引 力 ， 但 是 商务 用 户 的 兴趣 则 不 大 。 

试验 方案 是 一 个 三 方 合作 的 关系 ， 涉 及 Comcast Cellular 公司 、 一 群 数据 控 掘 顾问 ( 包 
括 作 者 ) 和 电话 营销 服务 局 。 

。Comcast Cellular 公司 按照 自己 的 商务 实践 和 程序 ， 提 供 数据 和 专门 技术 。 

“ 数据 挖掘 顾 问 利用 详细 呼叫 数据 中 使 用 模式 (usage pattern) ， 开 发 可 能 的 背叛 者 的 

简 档 。 
“ 电话 营销 服务 局 与 Comcast Cellular 公司 一 起 ， 使 用 简 档 开 发 拓展 电话 营销 活动 的 保 
持 服务 。 

该 描述 重点 关注 联合 工作 的 数据 挖掘 方面 。 数 据 挖掘 工作 的 目标 就 是 识别 一 些 群 体 ， 其 
中 的 用 户 在 未 来 60 天 中 有 异常 高 的 可 能 性 会 取消 订阅 。 采 用 的 数据 挖掘 工具 使 用 类 似 决 策 
树 的 规则 归纳 算法 ， 创 建 由 简单 规则 所 描述 的 高 风险 客户 的 片段 。 在 针对 保留 这 些 高 风险 客 
户 的 电话 营销 活动 中 ， 计 划 应 该 包括 他 们 ， 使 保持 服务 适合 于 通过 数据 控 据 发 现 的 不 同 客户 
片段 。 实 验 设计 允许 比较 三 个 群体 : 

。 和 群体 A 由 模型 判断 为 高 风险 的 客户 组 成 ， 对 这 些 客户 不 进行 任何 干预 。 

“群体 B 由 模型 判断 为 高 风险 的 客户 组 成 ， 对 这 些 客户 施 以 适当 的 干涉 。 

" 群体 C 代表 普通 客户 人 口 。 

研究 设计 如 图 18-2 所 示 。 当 然 ， 我 们 希望 ， 与 群体 B 和 C 相 比 ， 和 群体 A 的 流失 率 高 ， 
从 而 证 明 模 型 和 干预 两 者 都 是 有 效 的 。 


图 18-2 ”用 于 分 析 客 户 关 系 营销 测试 的 研究 设计 
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这 里 ， 方 案 遇 到 一 点 小 麻烦 。 第 一 个 困难 是 ， 虽 然 方案 包括 向 被 确认 为 可 能 取消 的 人 进 
行 电 话 营销 呼叫 的 预算 ， 但 既 没有 预算 也 没有 授权 真正 向 被 叫 的 人 提供 任何 东西 。 另 一 个 问 
题 是 呼叫 中 心 的 技术 问题 。 为 解决 超出 保持 工作 范围 的 特定 问题 〈 例 如 账单 上 的 错误 ) ， 将 
不 满意 的 客户 直接 转移 到 电话 公司 的 客户 服务 组 是 不 可 能 的 。 然 而 另外 的 问题 是 ， 虽 然 
客户 数据 库 包括 每 个 客户 的 家 庭 电 话 号 码 ， 但 是 事实 证 明 ， 大 约 只 有 75% 的 电话 号 码 是 正 
确 的 。 

最 后 ， 电 话 营销 公司 仅仅 呼叫 被 测试 的 人 和 对 照 群 组 ， 询 问 一 系列 专门 为 得 出 他 们 的 满 
意 程度 而 设计 的 问题 ， 并 自愿 谈 及 报告 给 客服 中 心 的 任何 问题 。 不 考虑 这 些 毫 无 说 服 力 的 干 
预 ， 测 试 群 组 60 天 的 保持 显然 比 对 照 群 组 好 得 多 。 很 显然 ， 仅 显示 公司 特别 关心 客户 的 呼 
叫 就 足以 减少 流失 了 。 

18.3.2 数据 


在 与 客户 的 几 次 会 谈 期 间 ， 我 们 为 试验 的 应 用 确认 了 两 个 数据 来 源 。 第 一 个 来 源 是 ， 由 
一 家 数据 库 营 销 公 司 建立 的 客户 简 档 数据 库 。 这 个 数据 库 包 含 每 位 用 户 的 概要 信息 ， 包 括 套 
餐 计 划 、 电 话 类 型 、 每 月 使 用 的 本 地 呼叫 分 钟 数 、 每 月 使 用 的 漫游 呼叫 分 钟 数 、 到 美国 的 某 
个 移动 电话 市 场 的 往返 呼叫 次 数 ， 以 及 许多 其 他 类 似 的 字段 。 

第 二 个 来 源 是 ， 无 线 交 换 机 收集 的 呼叫 明细 数据 。 每 次 移动 电话 被 打开 ， 利 用 附近 的 发 
射 站 (cell site) 开始 双向 交谈 。 发 射 站 中 转 来 自 电 话 的 数据 ， 例 如 到 中 央 交 换 局 的 序号 和 
电话 类 型 。 交 换 局 的 计算 机 判断 当前 的 电话 应 该 打 给 哪 一 个 发 射 站 ， 并 且 将 信息 传 回 到 电 
话 ， 告 诉 它 使 用 哪 一 个 发 射 站 以 及 调 到 什么 频率 。 

当 用 户 输入 电话 号 码 并 且 按 下 发 送 按钮 的 时 候 ， 号 码 被 传递 到 中 央 交 换 机 ， 它 在 正规 线 
路 上 依次 建立 呼叫 ， 或 者 传递 给 最 接近 另 一 位 无 线 用 户 的 发 射 站 。 每 个 交换 产生 详细 的 呼叫 
记录 ,和 包括 用 户 ID、 主 叫 号 码 、 被 叫 号 码 、 主 叫 发 射 站 、 呼 叫 持续 时 间 、 呼 叫 终止 理由 等 。 
这 些 详细 的 呼叫 记录 用 于 产生 每 位 客户 的 行为 简 档 ， 包 括 诸如 不 同 的 被 叫 号 码 、 每 天 某 时 的 
竖 叫 比例 ， 以 及 每 周 某 天 的 呼叫 比例 。 

试验 方案 使 用 大 约 50 000 位 用 户 6 个 月 的 数据 ， 其 中 有 些 人 取消 了 账户 ， 有 些 人 没有 
取消 。 最 初 的 意图 是 合并 两 个 数据 来 源 ， 因 此 来 自 营 销 数据 库 (账单 计划 、 保 有 期 、 电 话 类 
型 、 使 用 的 总 分 钟 数 、 家 乡 等 ) 给 定 用 户 的 数据 会 连接 到 个 人 的 呼叫 详细 记录 。 这 样 ， 基 于 
两 个 数据 源 的 独立 变量 可 以 建立 惟一 的 模型 。 由 于 技术 原因 ， 这 被 证 明 是 困难 的 ， 因 此 ， 由 
于 时 间 和 预算 的 限制 ， 我 们 最 终 构建 两 个 单独 的 模型 ， 一 个 基于 营销 数据 ， 另 一 个 基于 详细 
呼叫 数据 。 

营销 数据 已 经 按照 客户 层次 进行 汇总 ， 并 且 存储 在 容易 接近 的 数据 库 系统 中 。 把 详细 呼 
叫 数 据 放 到 可 使 用 的 表格 中 更 具有 挑战 性 。 每 个 交换 有 自己 的 卷轴 带 收 藏 ， 就 像 在 20 世纪 
60 年 代 的 电影 中 用 于 表示 计算 机 的 那些 带 一 样 。 这 些 带 不 断 地 被 反复 使 用 ， 以 至 于 90 天 的 
移动 窗口 总 是 当前 的 ， 使 用 90 天 之 前 的 带 来 记录 当前 的 呼叫 。 因 为 每 天 要 录 八 眷 音 带 ， 我 
们 发现 自己 陷 人 和 人 困境， 必须 查看 700 多 盘 音 带 ， 每 个 音 带 必须 逐个 地 手工 装载 到 9 轨道 模拟 
音 带 驱动 器 中 。 由 于 详细 的 呼叫 数据 以 加 密 的 格式 写 人 专门 的 交换 设备 ， 因 此 一 旦 装 入 ， 需 
要 大 量 的 预 处 理 以 便 为 分 析 做 好 准备 。 通 过 过 滤 那 些 与 往返 于 流失 模型 人 口 的 呼叫 无 关 的 记 
录 ，7000 万 条 详细 的 呼叫 记录 降 到 了 1000 万 条 。 
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甚至 在 预言 性 建 模 开 始 之 前 ， 详 细 呼 叫 数据 的 简单 分 析 也 提出 了 许多 可 能 逐渐 增加 收益 
的 方法 。 一 旦 呼叫 明细 以 可 查询 的 形式 备用 ， 就 可 能 回答 如 下 问题 ， 

。 进 行 许多 短 呼 叫 的 用 户 要 比 那 些 只 进行 较 少 、 较 长 呼叫 的 客户 更 忠诚 还 是 更 不 

忠诚 ? 

。 呼 叫 失败 导致 呼叫 客户 服务 吗 ? 

。 对 于 移动 电话 到 移动 电话 与 移动 电话 到 固定 电话 ， 用 户 的 呼叫 周期 的 规模 是 什么 ? 

。 用 户 的 使 用 如 何 分 别 按 小 时 、 月 、 工 作 日 到 周末 而 变化 ? 

。 用 户 呼叫 电台 的 热线 吗 ? 

。 用 户 呼 叫 语音 邮件 的 频率 是 多 少 ? 

。 用户 呼 叫 客户 服务 的 频率 是 多 少 ? 

对 这 些 问 题 和 许多 其 他 问题 的 回答 表明 ， 有 一 系列 的 营销 活动 用 来 刺激 在 特定 时 期 以 特 
定 方式 使 用 移动 电话 。 此 外 ， 正 如 我 们 所 希望 的 ， 围 绕 从 呼叫 明细 构造 的 度量 建立 的 变量 ， 
如 呼叫 周期 大 小 ， 被 证 明 可 以 极 好 地 预测 流失 。 


18.3.3 ”一些 发 现 


数据 挖掘 隔离 几 个 高 风险 流失 的 客户 片段 。 其 中 某 些 片段 比 其 他 片段 更 具有 可 操作 性 。 
举例 来 说 ， 事 实证 明 ， 根 据 呼 叫 接 人 网络 的 位 置 来 判断 ， 经 常 往返 于 纽约 的 用 户 比 往返 于 费 
城 的 用 户 更 有 可 能 流失 。 这 是 信号 覆盖 的 问题 。 住 在 Comcast 公司 覆盖 的 区 域 并 且 经 常 往返 
于 纽约 的 客户 ， 发 现 自己 大 部 分 工作 日 的 呼叫 处 于 漫游 〈 使 用 另 一 家 公司 的 网 络 ) 状态 。 实 
际 上 ， 上 账单 计划 使 得 漫游 的 费用 非常 昂贵 。 经 常 往返 于 费城 者 的 整个 往返 路 程 和 工作 日 都 保 
持 在 Comcast 公司 覆盖 的 区 域内 ， 因 此 不 会 产生 任何 漫游 费用 。 因 为 变更 覆盖 区 域 和 变更 控 
制 套餐 计划 的 规则 都 不 是 研究 的 发 起 人 所 能 驾驭 的 ， 所 以 这 个 问题 不 太 好 操作 ， 尽 管 信息 可 
能 被 其 他 企业 所 利用 。 

潜在 地 更 具 操 作 性 的 发 现 是， 呼叫 模式 与 套餐 计划 不 匹配 的 客户 处 于 高 风险 流失 状态 。 
存在 两 种 情形 ， 客 户 呼叫 行为 可 能 与 套餐 计划 不 适合 。 一 个 客户 片段 要 支付 比 实际 使 用 时 间 
更 多 的 分 钟 数 。 无 线 电话 公司 可 以 通过 将 他 们 吸引 到 较 低 的 套餐 计划 ， 从 而 增加 这 些 客 户 的 
终生 价值 。 他 们 每 个 月 的 价值 可 能 减少 ， 但 可 能 持续 更 长 的 时 间 。 确 认 这 一 点 的 惟一 方式 是 
通过 营销 测试 。 毕 竟 ， 客 户 可 能 接受 服务 ， 每 个 月 支付 较 少 费用 ， 但 是 仍然 以 相同 的 比率 流 
失 。 或 者 说 ， 流 失 的 比率 可 能 会 降低 ， 但 不 足以 补偿 近期 的 收益 损失 。 

当 用 户 签约 不 包括 许多 免费 分 钟 数 的 低 套 餐 计 划 时 ， 发 现 自己 时 常 使 用 的 分 钟 数 超出 了 
计划 所 允许 的 时 间 ， 在 呼叫 行为 和 套餐 计划 之 闻 发 生 了 另 一 种 错误 匹配 。 由 于 额外 的 分 钟 收 
费 比率 高 ， 这 些 客户 终止 支付 比 包含 更 多 时 间 的 更 贵 套餐 计划 更 高 的 费用 。 将 这 些 客户 转移 
到 较 高 的 套餐 计划 可 能 会 为 他 们 节省 一 些 费 用 ， 同 时 也 增加 来 自 他 们 每 月 账单 的 固定 收 
益 量 。 


18.3.4 实践 出 真知 


Comcast 公司 能 够 对 结合 数据 挖掘 和 电话 营销 行动 计划 的 直接 成 本 /收益 进行 分 析 。 根 
据 这 笔 数 据 ，Comcast 公司 能 够 对 将 来 的 数据 挖 据 工 作 做 出 明智 的 投资 决定 。 当 然 ， 事 情 在 
那里 并 没有 真正 结束 ; 永远 不 会 。 
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公司 面 对 一 系列 全 新 的 问题 ， 这 些 问 题 基于 来 自 初 始 研究 的 数据 。 新 的 假设 已 经 形成 和 
测试 。 电 话 营销 工作 的 响应 数据 成 为 新 一 轮 知识 发 现 的 素材 。 人 们 提炼 出 新 的 产品 理念 和 服 
务 计 划 。 因 为 公司 更 了 解 客户 ， 所 以 每 个 回合 的 数据 挖 据 从 一 个 比较 高 的 基础 开始 。 那 就 是 
数据 挖掘 的 良性 循环 。 


18.4 小 结 


在 商务 环境 中 ， 成 功 引入 数据 挖掘 需要 使 用 数据 挖 据 技 术 解 决 真正 的 商务 挑战 。 对 于 刚 
刚 开始 分 析 客 户 关 系 管理 的 公司 来 说 ， 整 合 数据 挖掘 可 能 是 件 令 人 且 惧 的 工作 。 概 念 验证 方 
案 是 开始 的 好 方法 。 概 念 验证 应 该 产生 可 靠 的 商务 案例 ， 进 一 步 将 数据 挖掘 整合 到 公司 的 营 
销 、 销 售 和 客户 -支持 操作 。 这 意味 着 方案 应 该 是 在 一 个 区 域 中 ,在 这 个 区 域 ， 容 易 将 通过 
数据 按 据 得 到 的 改良 的 理解 与 改良 的 收益 联系 起 来 。 

最 成 功 的 概念 验证 方案 从 定义 明确 的 商务 问题 开始 ， 并 且 使 用 与 问题 相关 的 数据 产生 行 
动 计 划 。 然 后 ， 以 可 控制 的 方式 执行 行动 ， 并 且 仔细 地 分 析 结 果 ， 评 估 所 采取 的 行动 的 效 
能 。 换 句 话 说， 概念 验 证 应 该 包括 数据 挖掘 良性 循环 的 完整 过 程 。 如 果 这 个 初始 方案 是 成 功 
的 ， 将 会 是 众多 之 中 的 第 一 个 。 从 整体 而 言 ， 本 章 的 主要 小 结 也 是 本 书 的 重要 内 容 : 只 有 应 
用 于 很 有 意义 的 问题 时 ， 数 据 挖掘 技术 才 会 成 为 有 用 的 帮手 。 数 据 挖掘 是 一 项 需要 技术 专长 
的 技术 活动 ， 但 其 成 功 与 否 由 商务 方面 的 效果 来 测量 。 
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本 书 是 数据 挖掘 领域 的 经 典 著 作 ， 数 年 来 畅销 不 误 。 全 书 从 技术 和 应 用 两 个 方面 ， 全 面 、 系 统 
地 介绍 了 数据 挖掘 的 商业 环境 、 数 据 挖掘 技术 及 其 在 商业 环境 中 的 应 用 。 自 从 1997 年 本 书 第 1 版 出 
版 以 来 ， 数 据 挖 掘 界 发 生 了 巨大 的 变化 ， 其 中 的 大 部 分 核心 算法 仍然 保持 不 变 ， 但 是 算法 嵌入 的 软 
件 、 应 用 算法 的 数据 库 以 及 用 于 解决 的 商业 问题 都 有 所 演进 。 第 2 版 展示 如 何 利用 基本 的 数据 挖掘 
方法 和 技术 ， 解 决 常见 的 商业 问题 


本 书 涵盖 核心 的 数据 挖掘 技术 ， 包 括 : 决策 树 、 神 经 网 络 、 协 同 过 滤 、 关 联 规则 、 链 接 分 析 、 
聚 类 和 生存 分 析 等 。 此 外 ， 还 提供 了 数据 挖掘 最 佳 实践 、 数 据 挖掘 的 最 新 进展 和 一 些 富 有 挑战 性 的 
研究 课题 ， 极 具 技 术 深 度 与 广度 。 配 套 网 站 www.data-miners.com/companion 提 供 了 每 章 的 练习 和 
用 于 测试 各 种 数据 挖掘 技术 的 数据 。 全 书 语句 凝 炼 、 清 新 ， 对 复杂 概念 的 实际 应 用 进行 了 生动 解释 
， 是 必 不 可 少 的 数据 挖掘 教材 。 


他 们 是 专业 的 数据 挖掘 咨询 公司 Data Miners 的 创办 人 。 他 们 
Michael J. A. BerTy 合作 出 版 了 一 些 经 典 的 数据 挖掘 著作 ， 包 括 Dala Mining 
e Techmigues、HMasiemng Daia Mining 和 和 Mining the Web {( 均 

Gordon S. Lino 娃 由 Wiley 公 司 出 版 ) 。 作 为 数据 挖掘 顾问 ， 他 们 一 起 为 北美 洲 . 
欧洲 和 亚洲 的 许多 大 公司 提供 专业 咨询 , 把 客户 数据 、 呼 叫 数据 网络 日 志 条 目 、 销 售 点 记录 和 账单 文件 变 
成 有 用 的 信息 ， 用 于 改善 客户 体验 。 他 们 都 有 近 20 年 在 营销 和 客户 关系 管理 方面 应 用 数据 挖掘 技术 的 经 验 。 


玉 坪 三 鹿 


SMWI LEY www.wiley.com 


华章 网 站 http://www.hzbook.com 


ISBN 7-111-19056-4 


= 
旧 时 网 上 购书 : www.china-pub.com 
三 投稿 热线 ， (010) 88379604 
购书 热线 : (010) 68995259, 68995264 
邹 草 图 带 读者 信箱 : hzjsj@hzbook.com 


ISBN 7-111-19056-4 


人 上 架 指导 : 计算 机 /数据 库 定价: 49.00 元 


